레이블링된 데이터이란?

Question

레이블링된 데이터는 하나 이상의 레이블이 태그된 샘플 그룹이다. 레이블링은 일반적으로 레이블이 없는 데이터 세트를 가져와 각 데이터에 판정이라 불리는 정보성 태그를 추가하는 과정이다. 예를 들어, 데이터 레이블은 사진에 말이 있는지 소가 있는지, 오디오 녹음에서 어떤 단어가 발화되었는지, 비디오에서 어떤 유형의 행동이 수행되고 있는지, 뉴스 기사의 주제가...

MOAI Technologies · Accepted Answer

레이블링된 데이터는 하나 이상의 레이블이 태그된 샘플 그룹이다. 레이블링은 일반적으로 레이블이 없는 데이터 세트를 가져와 각 데이터에 판정이라 불리는 정보성 태그를 추가하는 과정이다. 예를 들어, 데이터 레이블은 사진에 말이 있는지 소가 있는지, 오디오 녹음에서 어떤 단어가 발화되었는지, 비디오에서 어떤 유형의 행동이 수행되고 있는지, 뉴스 기사의 주제가 무엇인지, 트윗의 전반적인 감성이 무엇인지, 또는 X선 사진의 점이 종양인지 여부를 나타낼 수 있다. 레이블은 사람이 주어진 레이블 없는 데이터에 대해 판단을 내리는 방식으로 얻을 수 있다.[^1] 레이블링된 데이터는 원시 레이블 없는 데이터보다 획득 비용이 훨씬 더 높다. 레이블링된 데이터의 품질은 지도 학습 기계 학습 모델의 운영 성능에 직접적인 영향을 미치는데, 이러한 모델은 제공된 레이블로부터 학습하기 때문이다.[^2] 크라우드소싱 레이블링 데이터
2006년, 스탠퍼드 인간 중심 AI 연구소의 공동 소장인 페이페이 리(Fei-Fei Li)는 훈련 데이터를 대폭 확대하여 이미지 인식을 위한 인공지능 모델과 알고리즘을 개선하는 연구를 시작했다. 연구진은 월드 와이드 웹에서 수백만 장의 이미지를 다운로드했고, 학부생 팀이 각 이미지에 객체 레이블을 적용하기 시작했다. 2007년, 리는 디지털 단위 작업을 위한 온라인 마켓플레이스인 아마존 메커니컬 터크(Amazon Mechanical Turk)에 데이터 레이블링 작업을 외주했다. 49,000명 이상의 작업자가 레이블링한 320만 장의 이미지는 객체 인식 개요를 위한 최대 규모의 수작업 레이블링 데이터베이스 중 하나인 이미지넷(ImageNet)의 기반이 되었다.[^3] 자동 데이터 레이블링
레이블링된 데이터셋을 확보한 후, 기계 학습 모델을 데이터에 적용하여 새로운 레이블 없는 데이터를 모델에 제시하고 해당 레이블 없는 데이터에 대한 가능성 있는 레이블을 추측하거나 예측할 수 있다.[^4] 과제
데이터 기반 편향
알고리즘적 의사결정은 프로그래머 기반 편향뿐만

레이블링된 데이터

크라우드소싱 레이블링 데이터

자동 데이터 레이블링

과제

데이터 기반 편향

인적 오류와 비일관성

도메인 전문성

같이 보기

참고 문헌

관련 문서

관련 인사이트