데이터

최종 수정 2026.03.24

These are some of the different types of data: Geographical, Cultural, Scientific, Financial, Statistical, Meteorological, Natural, Transport

데이터( , )는 정보를 전달하는 이산적 또는 연속적 값의 집합으로, 수량, 품질, 사실, 통계, 기타 기본적인 의미 단위, 또는 더 형식적으로 해석될 수 있는 단순한 기호의 나열을 기술한다. 데이텀(datum)은 데이터 집합 내의 개별 값을 말한다. 데이터는 보통 추가적인 맥락과 의미를 제공하는 표와 같은 구조로 조직되며, 그 자체가 더 큰 구조에서 데이터로 사용될 수도 있다. 데이터는 계산 과정에서 변수로 사용될 수 있다.[^1][^5] 데이터는 추상적인 개념이나 구체적인 측정값을 나타낼 수 있다.[^6] 데이터는 과학 연구, 경제학, 그리고 사실상 모든 형태의 인간 조직 활동에서 널리 사용된다. 데이터 세트의 예로는 물가 지수(소비자 물가 지수 등), 실업률, 문해율, 인구 조사 데이터 등이 있다. 이러한 맥락에서 데이터는 유용한 정보를 추출할 수 있는 원시 사실과 수치를 나타낸다.

데이터는 측정, 관찰, 질의, 분석 등의 기법을 사용하여 수집되며, 일반적으로 추가 처리가 가능한 숫자나 문자로 표현된다. 현장 데이터는 통제되지 않은 현장 환경에서 수집된 데이터이다. 실험 데이터는 통제된 과학 실험 과정에서 생성된 데이터이다. 데이터는 계산, 추론, 토론, 발표, 시각화, 또는 기타 사후 분석 형태와 같은 기법을 사용하여 분석된다. 분석에 앞서 원시 데이터(또는 미처리 데이터)는 일반적으로 정제 과정을 거친다: 이상치가 제거되고, 명백한 기기 오류나 데이터 입력 오류가 수정된다.

데이터는 계산, 추론, 토론의 기초로 사용할 수 있는 사실 정보의 최소 단위로 볼 수 있다. 데이터는 통계를 포함하되 이에 국한되지 않으며, 추상적인 개념에서 구체적인 측정값까지 다양한 범위를 포괄할 수 있다. 관련 맥락에서 제시된 주제적으로 연결된 데이터는 정보로 볼 수 있다. 맥락적으로 연결된 정보의 조각들은 데이터 인사이트 또는 인텔리전스로 설명할 수 있다. 데이터를 정보로 종합하는 과정에서 시간이 지남에 따라 축적되는 인사이트와 인텔리전스의 총체는 지식으로 설명할 수 있다. 데이터는 "디지털 경제의 새로운 석유"로 묘사되어 왔다.[^7][^8] 데이터는 일반적인 개념으로서, 기존의 정보나 지식이 더 나은 활용이나 처리에 적합한 형태로 표현되거나 부호화되어 있다는 사실을 가리킨다.

컴퓨팅 기술의 발전은 빅데이터의 출현으로 이어졌으며, 이는 일반적으로 페타바이트 규모의 매우 대량의 데이터를 가리킨다. 전통적인 데이터 분석 방법과 컴퓨팅으로는 이렇게 크고 (계속 증가하는) 데이터 세트를 다루는 것이 어렵거나 심지어 불가능하다. (이론적으로 말하자면, 무한한 데이터는 무한한 정보를 산출하게 되어, 인사이트나 인텔리전스를 추출하는 것이 불가능해질 것이다.) 이에 대응하여, 비교적 새로운 분야인 데이터 과학은 빅데이터에 대한 분석 방법의 효율적인 적용을 가능하게 하는 머신러닝(및 기타 인공지능) 기법을 활용하고 있다.

어원 및 용어

라틴어 단어는 "(주어진) 것"을 뜻하는 단어의 복수형이며, "주다"를 뜻하는 동사의 중성 과거분사이다.[^2] 영어에서 "data"라는 단어가 처음 사용된 것은 1640년대이다. "data"라는 단어가 "전송 및 저장이 가능한 컴퓨터 정보"를 의미하는 용도로 처음 사용된 것은 1946년이다. "데이터 처리(data processing)"라는 표현은 1954년에 처음 사용되었다.[^2]

"데이터"가 "정보"의 동의어로 보다 일반적으로 사용될 때는 단수형의 불가산 명사로 취급된다. 이러한 용법은 일상 언어와 소프트웨어 개발 및 컴퓨터 과학 등 기술·과학 분야에서 흔히 볼 수 있다. 이 용법의 대표적인 예가 "빅 데이터"라는 용어이다. 데이터 집합의 처리 및 분석을 지칭하는 보다 구체적인 의미로 사용될 때는 복수형을 유지한다. 이러한 용법은 자연과학, 생명과학, 사회과학, 소프트웨어 개발 및 컴퓨터 과학 분야에서 흔히 사용되며, 20세기와 21세기에 걸쳐 그 사용이 증가하였다. 일부 문체 지침서는 이 용어의 다양한 의미를 구분하지 않고, 단순히 대상 독자에게 가장 적합한 형태를 권장한다. 예를 들어, 제7판 기준 APA 양식은 "data"를 복수형으로 취급할 것을 요구한다.[^9]

의미

![[Adrien Auzout 의 1665년 Philosophical Transactions 기사에 실린 "A TABLE of the Apertures of Object-Glasses"]] 데이터, 정보, 지식, 지혜는 밀접하게 관련된 개념이지만, 각각은 서로에 대해 고유한 역할을 가지며, 각 용어는 고유한 의미를 지닌다. 일반적인 견해에 따르면, 데이터는 수집되고 분석되며, 어떤 방식으로든 분석이 이루어진 후에야 비로소 의사결정에 적합한 정보가 된다.[^10] 어떤 데이터 집합이 누군가에게 유익한 정도는 그 사람에게 얼마나 예상치 못한 것인가에 달려 있다고 할 수 있다. 데이터 스트림에 포함된 정보의 양은 섀넌 엔트로피로 특성화할 수 있다.

지식은 어떤 존재가 자신의 환경에 대해 가지고 있는 인식인 반면, 데이터는 그 지식을 전달할 뿐이다. 예를 들어, 데이터베이스에서 에베레스트산의 높이를 명시하는 항목은 정밀하게 측정된 값을 전달하는 하나의 데이터이다. 이 측정값은 에베레스트산에 관한 다른 데이터와 함께 책에 포함되어, 등반 최적의 방법을 결정하고자 하는 사람들에게 유용한 방식으로 산을 설명할 수 있다. 이 데이터가 나타내는 특성에 대한 인식이 곧 지식이다.

데이터는 흔히 가장 덜 추상적인 개념으로, 정보는 그다음으로, 지식은 가장 추상적인 개념으로 간주된다.[^11] 이 관점에서 데이터는 해석을 통해 정보가 된다. 예를 들어, 에베레스트산의 높이는 일반적으로 "데이터"로 간주되고, 에베레스트산의 지질학적 특성에 관한 책은 "정보"로 간주될 수 있으며, 에베레스트산 정상에 도달하는 최선의 방법에 대한 실용적인 정보를 담은 등반 안내서는 "지식"으로 간주될 수 있다. "정보"는 일상적 용법에서 기술적 용법에 이르기까지 다양한 의미를 지닌다. 그러나 이 관점에 대해, 데이터가 정보로부터, 정보가 지식으로부터 생겨나는 방식을 역전시킨다는 반론도 제기되어 왔다.[^12] 일반적으로 정보의 개념은 제약, 통신, 제어, 데이터, 형식, 지시, 지식, 의미, 정신적 자극, 패턴, 지각, 표현 등의 개념과 밀접하게 관련되어 있다. Beynon-Davies는 기호의 개념을 사용하여 데이터와 정보를 구별한다. 데이터는 일련의 기호인 반면, 정보는 기호가 무언가를 지칭하는 데 사용될 때 발생한다.[^13][^14]

컴퓨팅 장치와 기계가 개발되기 전에는 사람들이 수동으로 데이터를 수집하고 패턴을 부여해야 했다. 컴퓨팅 장치와 기계의 발전으로 이러한 장치들도 데이터를 수집할 수 있게 되었다. 2010년대에는 마케팅, 시민의 사회 서비스 이용 분석에서 과학 연구에 이르기까지 다양한 분야에서 데이터를 수집하고 분류하거나 처리하는 데 컴퓨터가 널리 사용되었다. 데이터에서 발견되는 이러한 패턴은 지식을 향상시키는 데 사용할 수 있는 정보로 간주된다. 이러한 패턴은 "진실"로 해석될 수 있으며(다만 "진실"은 주관적인 개념일 수 있다), 일부 학문 분야나 문화에서는 미적·윤리적 기준으로 인정될 수도 있다. 인지 가능한 물리적 또는 가상적 흔적을 남기는 사건은 데이터를 통해 추적할 수 있다. 표시와 관찰 사이의 연결이 끊어지면 그 표시는 더 이상 데이터로 간주되지 않는다.[^15]

기계식 컴퓨팅 장치는 데이터를 표현하는 방식에 따라 분류된다. 아날로그 컴퓨터는 데이터를 전압, 거리, 위치 또는 기타 물리적 양으로 표현한다. 디지털 컴퓨터는 데이터 조각을 고정된 알파벳에서 추출한 기호의 순서로 표현한다. 가장 일반적인 디지털 컴퓨터는 이진 알파벳, 즉 통상 "0"과 "1"로 표기되는 두 문자로 이루어진 알파벳을 사용한다. 숫자나 문자와 같은 보다 익숙한 표현은 이진 알파벳으로부터 구성된다. 일부 특수한 형태의 데이터가 구별된다. 컴퓨터 프로그램은 명령어로 해석될 수 있는 데이터의 모음이다. 대부분의 컴퓨터 언어는 프로그램과 프로그램이 작동하는 다른 데이터를 구별하지만, 일부 언어, 특히 리스프(Lisp) 및 유사 언어에서는 프로그램이 본질적으로 다른 데이터와 구별되지 않는다. 또한 메타데이터, 즉 다른 데이터에 대한 설명을 구별하는 것도 유용하다. 메타데이터의 더 이른 유사 용어로는 "부수적 데이터"가 있다. 메타데이터의 대표적인 예는 도서 목록으로, 이는 책의 내용에 대한 설명이다.

데이터 출처

마케팅 또는 기타 기업 수집 과정에서 수집된 데이터의 소유권과 관련하여, 데이터는 출처와의 근접성 또는 추가 처리를 통해 생성되었는지 여부에 따라 당사자별로 분류되어 왔다. "제로파티 데이터"는 고객이 "의도적이고 능동적으로 공유하는" 데이터를 말한다.[^16] 이러한 종류의 데이터는 구독, 선호도 센터, 퀴즈, 설문조사, 팝업 양식, 인터랙티브 디지털 경험 등 다양한 출처에서 수집될 수 있다.[^17] "퍼스트파티 데이터"는 기업이 고객으로부터 직접 수집할 수 있는 데이터이다.[^18] 퍼스트파티 데이터의 안전한 기업 간 교환은 데이터 클린룸을 사용하여 이루어질 수 있다.[^3] "세컨드파티 데이터"는 구매 또는 기타 수단을 통해 다른 조직이나 파트너로부터 얻은 데이터를 말하며, "다른 조직의 퍼스트파티 데이터"로 설명되어 왔다.[^4][^19] "서드파티 데이터"는 다른 조직이 수집한 후 다양한 출처, 웹사이트, 플랫폼에서 집계한 데이터이다.[^4] {| class="wikitable" |+데이터 출처 요약[^4] !데이터 출처 !소유자 !정확도 !사용 사례 !개인정보 위험 |- |퍼스트파티 |해당 기업 |높음 |개인화, 리타겟팅 |낮음 |- |세컨드파티 |파트너 |보통 |파트너십 캠페인 |보통 |- |서드파티 |외부 기관 |낮음 |광범위한 타겟팅 |높음 |} "노파티" 데이터는 때때로 원본 데이터의 패턴을 기반으로 생성된 합성 데이터를 지칭할 수 있다.[^3]

데이터 문서

데이터를 등록해야 할 때마다 데이터는 데이터 문서의 형태로 존재한다. 데이터 문서의 종류에는 다음이 포함된다:

  • 데이터 저장소
  • 데이터 연구
  • 데이터 세트
  • 소프트웨어
  • 데이터 논문
  • 데이터베이스
  • 데이터 핸드북
  • 데이터 저널

이러한 데이터 문서 중 일부(데이터 저장소, 데이터 연구, 데이터 세트, 소프트웨어)는 데이터 인용 색인에 등재되며, 데이터 논문은 전통적인 서지 데이터베이스, 예를 들어 과학 인용 색인(Science Citation Index)에 등재된다.

데이터 수집

데이터 수집은 1차 출처(연구자가 데이터를 최초로 획득하는 경우) 또는 2차 출처(연구자가 과학 저널에 발표된 데이터와 같이 다른 출처에서 이미 수집된 데이터를 획득하는 경우)를 통해 이루어질 수 있다. 데이터 분석 방법론은 다양하며, 데이터 삼각검증법과 데이터 침투법이 포함된다.[^20] 후자는 연구의 객관성을 극대화하고 조사 대상 현상에 대한 가능한 한 완전한 이해를 가능하게 하기 위해 최소 세 가지 이상, 최대 다섯 가지의 분석 각도를 사용하여 데이터를 수집, 분류, 분석하는 체계적인 방법을 제공한다: 정성적 및 정량적 방법, 문헌 검토(학술 논문 포함), 전문가 인터뷰, 컴퓨터 시뮬레이션. 이후 데이터는 가장 관련성 높은 정보를 추출하기 위해 사전에 결정된 일련의 단계를 통해 "침투(percolation)" 처리된다.

데이터의 수명과 접근성

컴퓨터 과학, 기술, 도서관학에서 중요한 분야는 데이터의 수명이다. 과학 연구는 특히 유전체학과 천문학에서, 그리고 의료 영상 등 의학 분야에서도 방대한 양의 데이터를 생성한다. 과거에는 과학 데이터가 논문과 서적으로 출판되어 도서관에 보관되었지만, 최근에는 사실상 모든 데이터가 하드 드라이브나 광학 디스크에 저장된다. 그러나 종이와 달리 이러한 저장 장치는 수십 년이 지나면 읽을 수 없게 될 수 있다. 과학 출판사와 도서관은 수십 년간 이 문제와 씨름해 왔지만, 수백 년 또는 영구적인 장기 데이터 보존에 대한 만족스러운 해결책은 아직 없다.

데이터 접근성. 또 다른 문제는 많은 과학 데이터가 출판되지 않거나 데이터베이스와 같은 데이터 저장소에 기탁되지 않는다는 것이다. 최근 조사에서 2년에서 22년 전에 출판된 516건의 연구에 대해 데이터를 요청했지만, 이 중 5분의 1도 안 되는 연구만이 요청된 데이터를 제공할 수 있거나 제공할 의사가 있었다. 전반적으로 데이터를 확보할 가능성은 출판 후 매년 17%씩 감소했다.[^21] 마찬가지로, 드라이어드(Dryad)에 있는 100개의 데이터셋을 조사한 결과, 절반 이상이 해당 연구의 결과를 재현하기 위한 세부 정보가 부족한 것으로 나타났다.[^22] 이는 출판되지 않았거나 재현하기에 충분한 세부 정보가 없는 과학 데이터에 대한 접근의 심각한 상황을 보여준다.

재현성 문제에 대한 해결책은 FAIR 데이터, 즉 검색 가능하고(Findable), 접근 가능하며(Accessible), 상호 운용 가능하고(Interoperable), 재사용 가능한(Reusable) 데이터를 요구하려는 시도이다. 이러한 요건을 충족하는 데이터는 후속 연구에 사용될 수 있으며, 따라서 과학과 기술의 발전에 기여한다.[^23]

다른 분야에서

데이터가 다른 분야에서도 점점 더 많이 사용되고 있지만, 이러한 분야의 높은 해석적 특성이 "주어진 것"으로서의 데이터 정신과 충돌할 수 있다는 주장이 제기되었다. 피터 체클랜드(Peter Checkland)는 방대한 수의 가능한 데이터와 그중 주의가 향하는 하위 집합을 구별하기 위해 캡타(라틴어 capere, "취하다"에서 유래)라는 용어를 도입했다.[^24] 요한나 드러커(Johanna Drucker)는 인문학이 지식 생산을 "상황적이고, 부분적이며, 구성적인" 것으로 확인하기 때문에, 데이터라는 용어를 사용하면 현상이 이산적이거나 관찰자와 독립적이라는 등 비생산적인 가정을 도입할 수 있다고 주장했다.[^25] 관찰 행위가 구성적이라는 점을 강조하는 캡타라는 용어는 인문학에서 시각적 표현을 위한 데이터의 대안으로 제안된다.

데이터 기반(data-driven)이라는 용어는 다른 모든 요소보다 데이터에 의해 주로 추동되는 활동에 적용되는 신조어이다. 데이터 기반 응용 분야에는 데이터 기반 프로그래밍과 데이터 기반 저널리즘이 포함된다.

같이 보기

  • 생물학적 데이터
  • 컴퓨터 데이터 처리
  • 컴퓨터 메모리
  • 다크 데이터
  • 데이터 (컴퓨터 과학)
  • 데이터 수집
  • 데이터 분석
  • 데이터 뱅크
  • 데이터 케이블
  • 데이터 큐레이션
  • 데이터 도메인
  • 데이터 요소
  • 데이터 파밍
  • 데이터 거버넌스
  • 데이터 무결성
  • 데이터 유지보수
  • 데이터 관리
  • 데이터 마이닝
  • 데이터 모델링
  • 데이터 포인트
  • 데이터 보존
  • 데이터 보호
  • 데이터 출판
  • 데이터 잔류
  • 데이터 과학
  • 데이터 저장
  • 데이터셋
  • 데이터 구조
  • 데이터 시각화
  • 데이터 웨어하우스
  • 데이터베이스
  • 데이터시트
  • 데이터 기반 프로그래밍
  • 데이터 기반 저널리즘
  • 데이터 기반 테스트
  • 데이터 기반 학습
  • 데이터 기반 과학
  • 데이터 기반 제어 시스템
  • 데이터 기반 마케팅
  • 디지털 프라이버시
  • 환경 데이터 구출
  • 현장 조사
  • 정보 공학
  • 기계 학습
  • 오픈 데이터
  • 과학 데이터 아카이빙
  • 2차 데이터
  • 통계학
  • 디지털 데이터
  • 데이터 집계

외부 링크

참고 문헌

[^1]: OECD 통계 용어집. OECD. (2008)

[^2]: data | data의 어원과 의미

[^3]: Bridgwater, Adrian. 서드파티 데이터는 이제 일급 데이터이다

[^4]: Fallows, Carley. 더 나은 마케팅 ROI를 위해 어떤 데이터 소스를 신뢰할 수 있는가?. (2025-01-13)

[^5]: 통계 용어 - 데이터란 무엇인가?. (2013-07-13)

[^6]: 데이터와 정보 - 차이점 및 비교 {{!

[^7]: Toonders, Joris. 데이터는 디지털 경제의 새로운 석유이다. (2014년 7월 23일)

[^8]: 데이터는 새로운 석유이다

[^9]: 미국심리학회 출판 매뉴얼: APA 스타일 공식 가이드. 미국심리학회

[^10]: 합동 간행물 2-0, 합동 정보. 미국 국방부. (2013년 10월 23일)

[^11]: 성공적인 모델링을 위한 데이터 분류

[^12]: Tuomi, Ilkka. 데이터는 지식 이상이다. (2000)

[^13]: 정보 시스템: 조직 내 정보학 입문. [[Palgrave Macmillan]]

[^14]: 비즈니스 정보 시스템. Palgrave

[^15]: 데이터베이스: 존엄성의 미학

[^16]: Liu, Stephanie. 소스에서 직접: 고객으로부터 제로파티 데이터 수집하기. (2020-07-30)

[^17]: Greenstein, Danielle. 퍼스트파티 데이터와 서드파티 데이터란: 정의 및 전략. (2019-08-19)

[^18]: Studio, AdExchanger Content. 퍼스트파티 데이터의 여명: 새로운 광고 환경 탐색. (2025-01-02)

[^19]: Greenstein, Danielle. 세컨드파티 데이터란 무엇이며 어떻게 활용할 수 있는가?. (2024-03-15)

[^20]: Mesly, Olivier (2015), ''심리학 연구에서의 모델 생성'', Springer Psychology : 126쪽. ISBN 978-3-319-15752-8

[^21]: Vines, Timothy H.. 연구 데이터의 가용성은 논문의 연수에 따라 급격히 감소한다. (2014-01-06)

[^22]: Roche, Dominique G.. 생태학 및 진화학에서의 공개 데이터 아카이빙: 우리는 얼마나 잘하고 있는가?. (2015)

[^23]: Eisenstein, Michael. 데이터 불멸성의 추구. (2022년 4월)

[^24]: cite book author = P. Checkland and S. Holwell title = 정보, 시스템, 그리고 정보 시스템: 분야의 이해. year = 1998 publisher = John Wiley & Sons location = Chichest

[^25]: 그래픽 표현에 대한 인문학적 접근