탐색적 데이터 분석

통계학에서 탐색적 데이터 분석(EDA) 또는 탐색적 분석은 데이터 세트의 주요 특성을 요약하기 위해 분석하는 접근법으로, 통계 그래픽 및 기타 데이터 시각화 방법을 주로 사용한다. 통계 모델을 사용할 수도 있고 사용하지 않을 수도 있지만, EDA는 주로 공식적인 모델링을 넘어서 데이터가 말해줄 수 있는 것을 파악하기 위한 것으로, 데이터를 보기 전에 모델을 선택해야 하는 전통적인 가설 검정과 대조된다. 탐색적 데이터 분석은 1970년부터 존 튜키에 의해 제안되었으며, 통계학자들이 데이터를 탐색하고 새로운 데이터 수집과 실험으로 이어질 수 있는 가설을 수립하도록 장려하기 위한 것이었다. EDA는 초기 데이터 분석(IDA)과는 다른데,[^2][^3] IDA는 모델 적합과 가설 검정에 필요한 가정을 확인하고, 결측값을 처리하며, 필요에 따라 변수 변환을 수행하는 데 더 좁게 초점을 맞춘다. EDA는 IDA를 포괄한다.

개요

튜키는 1961년에 데이터 분석을 다음과 같이 정의했다: "데이터를 분석하기 위한 절차, 그러한 절차의 결과를 해석하기 위한 기법, 분석을 더 쉽고 정밀하며 정확하게 만들기 위한 데이터 수집 계획 방법, 그리고 데이터 분석에 적용되는 (수리) 통계학의 모든 도구와 결과."[^4]

탐색적 데이터 분석은 데이터 세트를 분석하고 조사하여 주요 특성을 요약하는 기법이다. EDA의 주요 장점은 분석을 수행한 후 데이터의 시각화를 제공한다는 것이다.

튜키의 EDA 옹호는 통계 컴퓨팅 패키지, 특히 벨 연구소의 S 언어 개발을 촉진했다.[^5] S 프로그래밍 언어는 S-PLUS와 R 시스템에 영감을 주었다. 이 통계 컴퓨팅 환경 계열은 크게 향상된 동적 시각화 기능을 갖추고 있어, 통계학자들이 추가 연구가 필요한 이상값, 추세, 패턴을 데이터에서 식별할 수 있게 했다.

튜키의 EDA는 통계 이론의 다른 두 가지 발전과 관련이 있었다: 로버스트 통계학과 비모수 통계학으로, 이 둘은 모두 통계 모델 수립 시 발생하는 오류에 대한 통계적 추론의 민감도를 줄이고자 했다. 튜키는 수치 데이터의 다섯 수치 요약—두 극값(최댓값과 최솟값), 중앙값, 사분위수—의 사용을 촉진했는데, 이는 중앙값과 사분위수가 경험적 분포의 함수로서 평균과 표준편차와 달리 모든 분포에 대해 정의되기 때문이다. 또한 사분위수와 중앙값은 전통적인 요약 통계량(평균과 표준편차)보다 비대칭 분포나 꼬리가 두꺼운 분포에 대해 더 로버스트하다. S, S-PLUS, R 패키지에는 케누이유와 튜키의 잭나이프, 에프론의 부트스트랩과 같은 재표본 통계를 사용하는 루틴이 포함되어 있었으며, 이는 비모수적이고 (많은 문제에 대해) 로버스트하다.

탐색적 데이터 분석, 로버스트 통계학, 비모수 통계학, 그리고 통계 프로그래밍 언어의 발전은 과학 및 공학 문제에 대한 통계학자들의 연구를 촉진했다. 이러한 문제에는 반도체 제조와 통신 네트워크의 이해가 포함되었으며, 이 두 분야 모두 벨 연구소의 관심 분야였다. 튜키가 옹호한 이러한 통계적 발전들은 통계적 가설 검정의 해석적 이론, 특히 라플라스 전통의 지수족에 대한 강조를 보완하기 위해 설계되었다.[^6]

또한, 앤스컴의 사중주에서와 같은 오해의 소지가 있는 결론을 피하기 위해 모델링 전에 EDA 과정에서 먼저 데이터를 시각화해야 한다는 주장이 있다.

발전 과정

데이터 과학 프로세스 흐름도

John W. Tukey는 1977년에 *탐색적 데이터 분석(Exploratory Data Analysis)*이라는 책을 저술하였다.[^1] Tukey는 통계학에서 통계적 가설 검정(확인적 데이터 분석)에 지나치게 많은 비중이 놓여 있다고 주장하였으며, 검정할 가설을 제안하기 위해 데이터를 활용하는 데 더 많은 비중을 두어야 한다고 보았다. 특히 그는 두 가지 유형의 분석을 혼동하여 동일한 데이터 집합에 적용하면, 데이터에 의해 제안된 가설을 검정하는 데 내재하는 문제로 인해 체계적 편향이 발생할 수 있다고 주장하였다.

탐색적 데이터 분석(EDA)의 목적은 다음과 같다: *데이터에서 예상치 못한 발견을 가능하게 한다 *관찰된 현상의 원인에 대한 가설을 제안한다 *통계적 추론의 기반이 되는 가정을 평가한다 *적절한 통계 도구 및 기법의 선택을 지원한다 *설문조사나 실험을 통한 추가 데이터 수집의 기반을 제공한다[^7]

많은 EDA 기법이 데이터 마이닝에 도입되었다. 또한 이러한 기법은 어린 학생들에게 통계적 사고를 소개하는 방법으로서 교육되고 있다.[^8]

기법 및 도구

EDA에 유용한 도구는 다양하지만, EDA는 특정 기법보다는 취하는 태도에 의해 더 특징지어진다.[^9]

EDA에서 사용되는 대표적인 그래프 기법은 다음과 같다:

*상자 그림 *히스토그램 *다변량 차트 *런 차트 *파레토 차트 *산점도 (2D/3D) *줄기-잎 그림 *평행 좌표 *오즈비 *목표 투영 추적 *히트맵 *막대 그래프 *호라이즌 그래프 *PhenoPlot[^10] 및 체르노프 얼굴과 같은 글리프 기반 시각화 기법

그랜드 투어, 가이디드 투어, 매뉴얼 투어와 같은 투영 기법
이러한 그래프들의 대화형 버전

차원 축소: *다차원 척도법 *주성분 분석 (PCA) *다중선형 PCA *비선형 차원 축소 (NLDR) *상관관계 도해법

대표적인 정량적 기법은 다음과 같다:

*중앙값 다듬기 *삼평균 *서열화

역사

많은 EDA의 아이디어는 이전 학자들에게로 거슬러 올라갈 수 있다. 예를 들면 다음과 같다:

Francis Galton은 순서 통계량과 분위수를 강조하였다.
Arthur Lyon Bowley는 줄기 그림과 다섯 수치 요약의 전신을 사용하였다(Bowley는 실제로 극값, 십분위수, 사분위수 및 중앙값을 포함하는 "일곱 수치 요약"을 사용하였다—그의 저서 통계학 기초 교본(Elementary Manual of Statistics) (제3판, 1920), p. 62[^11]를 참조하라– 그는 "최대값과 최소값, 중앙값, 사분위수 및 두 개의 십분위수"를 "일곱 위치"로 정의하였다).
Andrew Ehrenberg는 데이터 축소의 철학을 체계화하였다(같은 이름의 그의 저서를 참조하라).

개방대학교(Open University)의 과정인 사회 속의 통계학(Statistics in Society) (MDST 242)은 위의 아이디어들을 Gottfried Noether의 연구와 통합하였는데, 그의 연구는 동전 던지기와 중앙값 검정을 통해 통계적 추론을 도입한 것이었다.

예시

탐색적 자료 분석의 발견은 주요 분석 과제와 직교한다. 이를 설명하기 위해, Cook 등의 예시를 살펴보자. 이 분석 과제는 식사 모임이 웨이터에게 줄 팁을 가장 잘 예측하는 변수를 찾는 것이다.[^12] 이 과제를 위해 수집된 데이터에서 사용 가능한 변수는 팁 금액, 총 청구 금액, 결제자 성별, 흡연/비흡연 구역, 시간대, 요일, 그리고 모임 인원수이다. 주요 분석 과제는 팁 비율을 반응 변수로 하는 회귀 모형을 적합하여 접근한다. 적합된 모형은 다음과 같다.

(팁 비율) = 0.18 - 0.01 × (모임 인원수)

이는 식사 모임의 인원이 한 명 증가하면(청구 금액이 높아지면), 팁 비율은 평균적으로 1% 감소한다는 것을 의미한다.

그러나 데이터를 탐색하면 이 모형으로 설명되지 않는 다른 흥미로운 특징들이 드러난다. Tips-hist1.png|1달러 단위로 구간을 나눈 팁 금액의 히스토그램. 값의 분포는 오른쪽으로 치우쳐 있고 단봉형이며, 이는 작은 비음수 값의 분포에서 흔히 나타나는 현상이다. Tips-hist2.png|0.10달러 단위로 구간을 나눈 팁 금액의 히스토그램. 흥미로운 현상이 관찰된다: 정수 달러와 반달러 금액에서 봉우리가 나타나는데, 이는 고객들이 팁으로 반올림된 숫자를 선택하기 때문이다. 이러한 행동은 휘발유 구매 등 다른 유형의 구매에서도 흔히 나타난다. Tips-scat1.png|팁 대 청구 금액의 산점도. 선 아래의 점들은 (해당 청구 금액에 대해) 예상보다 낮은 팁에 해당하고, 선 위의 점들은 예상보다 높은 팁에 해당한다. 밀접한 양의 선형 관계를 예상할 수 있지만, 실제로는 팁 금액이 증가함에 따라 변동성이 커지는 것을 볼 수 있다. 특히 오른쪽 아래에 선에서 멀리 떨어진 점들이 왼쪽 위보다 더 많아, 매우 후하게 주는 고객보다 매우 인색하게 주는 고객이 더 많다는 것을 나타낸다. Tips-scat2.png|결제자 성별과 흡연 구역 여부로 구분한 팁 대 청구 금액의 산점도. 흡연 모임은 팁의 변동성이 훨씬 크다. 남성이 (소수의) 높은 청구 금액을 지불하는 경향이 있으며, 비흡연 여성은 매우 일관된 팁을 주는 경향이 있다(표본에서 눈에 띄는 세 가지 예외가 있다).

그래프에서 알 수 있는 것은 회귀 모형이 보여주는 것과 다르며, 실험이 이러한 다른 경향을 조사하기 위해 설계된 것이 아님에도 그러하다. 데이터를 탐색하여 발견된 패턴은 사전에 예상하지 못했을 수 있는 팁에 관한 가설을 제시하며, 이는 가설을 공식적으로 진술하고 새로운 데이터를 수집하여 검증하는 흥미로운 후속 실험으로 이어질 수 있다.

소프트웨어

JMP, SAS Institute의 탐색적 자료 분석 패키지.
KNIME, Konstanz Information Miner – Eclipse 기반의 오픈 소스 데이터 탐색 플랫폼. *Minitab, 산업 및 기업 환경에서 널리 사용되는 탐색적 자료 분석 및 일반 통계 패키지.
Orange, 오픈 소스 데이터 마이닝 및 기계 학습 소프트웨어 모음.
Python, 데이터 마이닝 및 기계 학습에서 널리 사용되는 오픈 소스 프로그래밍 언어.
Matplotlib 및 Seaborn은 오늘날 탐색적 자료 분석 및 플로팅/데이터 시각화에 사용되는 Python 라이브러리이다. (업데이트 시점: 2025)
R, 통계 컴퓨팅 및 그래픽을 위한 오픈 소스 프로그래밍 언어. Python과 함께 데이터 과학에서 가장 인기 있는 언어 중 하나이다.
TinkerPlots, 초등학교 고학년 및 중학생을 위한 탐색적 자료 분석 소프트웨어.
Weka, 표적 사영 추적 등의 시각화 및 탐색적 자료 분석 도구를 포함하는 오픈 소스 데이터 마이닝 패키지.

같이 보기

*앤스컴의 사중주, 탐색의 중요성에 대하여 *데이터 준설 *예측 분석 *구조적 자료 분석 (통계학) *배치 빈도 분석 *기술통계학

참고 문헌

*Andrienko, N & Andrienko, G (2005) 공간 및 시간 데이터의 탐색적 분석. 체계적 접근법. Springer.

*Cook, D. and Swayne, D.F. (with A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (2007-12-12). 데이터 분석을 위한 인터랙티브 및 동적 그래픽: R과 GGobi 활용. Springer. ISBN 9780387717616. *Hoaglin, D C; Mosteller, F & Tukey, John Wilder (Eds) (1985). 데이터 테이블, 추세 및 형태 탐색. ISBN 978-0-471-09776-1. *Hoaglin, D C; Mosteller, F & Tukey, John Wilder (Eds) (1983). 로버스트 및 탐색적 데이터 분석의 이해. ISBN 978-0-471-09777-8. *Young, F. W. Valero-Mora, P. and Friendly M. (2006) 시각적 통계학: 동적 인터랙티브 그래픽으로 데이터 보기. Wiley ISBN 978-0-471-68160-1 Jambu M. (1991) 탐색적 및 다변량 데이터 분석. Academic Press ISBN 0123800900
S. H. C. DuToit, A. G. W. Steyn, R. H. Stumpf (1986) 그래픽 탐색적 데이터 분석. Springer ISBN 978-1-4612-9371-2
- - *Leinhardt, G., Leinhardt, S., 탐색적 데이터 분석: 경험적 데이터 분석을 위한 새로운 도구, Review of Research in Education, Vol. 8, 1980 (1980), pp. 85–157.
*Theus, M., Urbanek, S. (2008), 데이터 분석을 위한 인터랙티브 그래픽: 원리와 예제, CRC Press, Boca Raton, FL,
- - - Young, F. W. Valero-Mora, P. and Friendly M. (2006) 시각적 통계학: 동적 인터랙티브 그래픽으로 데이터 보기. Wiley *Jambu M. (1991) 탐색적 및 다변량 데이터 분석. Academic Press *S. H. C. DuToit, A. G. W. Steyn, R. H. Stumpf (1986) 그래픽 탐색적 데이터 분석. Springer

외부 링크

참고 문헌

[^1]: cite book last = Tukey first = John W. year = 1977 title = 탐색적 데이터 분석 publisher = Pearson isbn = 978-0-201-07616-5 title-link = Exploratory Data Analysis

[^2]: Chatfield, C.. 문제 해결: 통계학자의 안내서. Chapman and Hall

[^3]: Baillie, Mark. 초기 데이터 분석을 위한 10가지 간단한 규칙

[^4]: [http://projecteuclid.org/download/pdf_1/euclid.aoms/1177704711 John Tukey-데이터 분석의 미래-1961년 7월]

[^5]: Becker, Richard A.. S의 간략한 역사. AT&T Bell Laboratories

[^6]: Morgenthaler, Stephan. John W. Tukey 및 Elizabeth Tukey, Luisa T. Fernholz, Stephan Morgenthaler와의 대담

[^7]: [https://web.archive.org/web/20170808064326/cll.stanford.edu/~willb/course/behrens97pm.pdf Behrens-탐색적 데이터 분석의 원리와 절차-미국심리학회-1997]

[^8]: Konold, C.. 통계학이 학교에 가다

[^9]: Tukey, John W.. 우리에게는 탐색적 분석과 확인적 분석이 모두 필요하다

[^10]: Sailem, Heba Z.. PhenoPlot을 이용한 세포 이미징 데이터 시각화. (2015-01-08)

[^11]: 통계학 기초 편람 (제3판, 1920)https://archive.org/details/cu31924013702968/page/n5

[^12]: [[Dianne Cook (statistician) Cook, D.]] and [[Deborah F. Swayne Swayne, D.F.]] (with A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence) (2007) "데이터 분석을 위한 인터랙티브 및 동적 그래픽

탐색적 데이터 분석

개요

발전 과정

기법 및 도구

역사

예시

소프트웨어

같이 보기

참고 문헌

외부 링크

참고 문헌

관련 인사이트