레이블링된 데이터

최종 수정 2026.03.25

레이블링된 데이터는 하나 이상의 레이블이 태그된 샘플 그룹이다. 레이블링은 일반적으로 레이블이 없는 데이터 세트를 가져와 각 데이터에 판정이라 불리는 정보성 태그를 추가하는 과정이다. 예를 들어, 데이터 레이블은 사진에 말이 있는지 소가 있는지, 오디오 녹음에서 어떤 단어가 발화되었는지, 비디오에서 어떤 유형의 행동이 수행되고 있는지, 뉴스 기사의 주제가 무엇인지, 트윗의 전반적인 감성이 무엇인지, 또는 X선 사진의 점이 종양인지 여부를 나타낼 수 있다.

레이블은 사람이 주어진 레이블 없는 데이터에 대해 판단을 내리는 방식으로 얻을 수 있다.[^1] 레이블링된 데이터는 원시 레이블 없는 데이터보다 획득 비용이 훨씬 더 높다.

레이블링된 데이터의 품질은 지도 학습 기계 학습 모델의 운영 성능에 직접적인 영향을 미치는데, 이러한 모델은 제공된 레이블로부터 학습하기 때문이다.[^2]

크라우드소싱 레이블링 데이터

2006년, 스탠퍼드 인간 중심 AI 연구소의 공동 소장인 페이페이 리(Fei-Fei Li)는 훈련 데이터를 대폭 확대하여 이미지 인식을 위한 인공지능 모델과 알고리즘을 개선하는 연구를 시작했다. 연구진은 월드 와이드 웹에서 수백만 장의 이미지를 다운로드했고, 학부생 팀이 각 이미지에 객체 레이블을 적용하기 시작했다. 2007년, 리는 디지털 단위 작업을 위한 온라인 마켓플레이스인 아마존 메커니컬 터크(Amazon Mechanical Turk)에 데이터 레이블링 작업을 외주했다. 49,000명 이상의 작업자가 레이블링한 320만 장의 이미지는 객체 인식 개요를 위한 최대 규모의 수작업 레이블링 데이터베이스 중 하나인 이미지넷(ImageNet)의 기반이 되었다.[^3]

자동 데이터 레이블링

레이블링된 데이터셋을 확보한 후, 기계 학습 모델을 데이터에 적용하여 새로운 레이블 없는 데이터를 모델에 제시하고 해당 레이블 없는 데이터에 대한 가능성 있는 레이블을 추측하거나 예측할 수 있다.^4

과제

데이터 기반 편향

알고리즘적 의사결정은 프로그래머 기반 편향뿐만 아니라 데이터 기반 편향의 영향을 받는다. 편향된 레이블링 데이터에 의존하는 훈련 데이터는 기계 학습 알고리즘 자체가 적법하더라도 예측 모델에 편견과 누락을 초래한다. 특정 기계 학습 알고리즘을 훈련시키는 데 사용되는 레이블링된 데이터는 결과에 편향을 주지 않기 위해 통계적으로 대표성 있는 표본이어야 한다.[^5] 예를 들어, 안면 인식 시스템에서 훈련에 사용할 수 있는 레이블링된 데이터가 모집단을 대표하지 못한 경우, 소외된 집단은 종종 잘못 분류된다. 2018년, 조이 부올람위니(Joy Buolamwini)와 팀닛 게브루(Timnit Gebru)의 연구에 따르면, 안면 인식 알고리즘 훈련에 사용된 두 개의 안면 분석 데이터셋인 IJB-A와 Adience는 각각 79.6%와 86.2%가 밝은 피부색의 인간으로 구성되어 있었다.[^6]

인적 오류와 비일관성

인간 주석자는 데이터를 레이블링할 때 오류와 편향에 취약하다. 이는 일관되지 않은 레이블로 이어질 수 있으며 데이터셋의 품질에 영향을 미칠 수 있다. 이러한 비일관성은 기계 학습 모델의 일반화 능력에 영향을 줄 수 있다.[^7]

도메인 전문성

법률 문서 분석이나 의료 영상과 같은 특정 분야에서는 전문적인 도메인 지식을 갖춘 주석자가 필요하다. 전문성이 없으면 주석이나 레이블링된 데이터가 부정확할 수 있으며, 실제 환경에서 기계 학습 모델의 성능에 부정적인 영향을 미칠 수 있다.[^8]

같이 보기

  • 데이터 주석
  • 휴먼스 인 더 루프 (영화)

참고 문헌

[^1]: 데이터 라벨링이란? - 데이터 라벨링 설명 - AWS

[^2]: Fredriksson, Teodor. 데이터 라벨링: 산업적 과제와 완화 전략에 대한 실증적 조사. Springer International Publishing. (2020)

[^3]: 고스트 워크: 실리콘밸리가 새로운 글로벌 하층 계급을 만드는 것을 막는 방법. Houghton Mifflin Harcourt

[^5]: 지식 사회를 위한 AI 및 첨단 ICT 운용: 권리, 개방성, 접근성, 다중 이해관계자 관점. UNESCO Publishing

[^6]: 지식 사회를 위한 AI 및 첨단 ICT 운용: 권리, 개방성, 접근성, 다중 이해관계자 관점. UNESCO Publishing

[^7]: Geiger, R. Stuart. "쓰레기를 넣으면 쓰레기가 나온다" 재검토: 머신러닝 응용 논문들은 인간이 라벨링한 훈련 데이터에 대해 무엇을 보고하는가?. (2021-11-05)

[^8]: Alzubaidi, Laith. 데이터 부족을 다루는 딥러닝 도구에 대한 조사: 정의, 과제, 해결책, 팁 및 응용. (2023-04-14)