전산통계학

최종 수정 2026.03.25

Machine Room of the London School of Economics in 1964]] 전산통계학(computational statistics) 또는 통계 컴퓨팅(statistical computing)은 통계학과 컴퓨터 과학의 교차 영역에 해당하는 학문으로, 계산적 방법을 활용하여 구현되는 통계적 방법론을 가리킨다. 이는 통계라는 수리과학에 특화된 전산과학(또는 과학적 컴퓨팅)의 한 분야이다. 이 분야는 빠르게 발전하고 있다. 보다 넓은 의미의 컴퓨팅 개념이 일반 통계 교육의 일부로 가르쳐져야 한다는 견해가 점차 힘을 얻고 있다.[^2]

전통적인 통계학에서와 마찬가지로 목표는 원시 데이터를 지식으로 변환하는 것이지만,[^1] 매우 큰 표본 크기와 비균질적 데이터 집합과 같은 경우에 사용되는 컴퓨터 집약적 통계 방법에 초점을 둔다.[^1]

'전산통계학'과 '통계 컴퓨팅'이라는 용어는 흔히 혼용되지만, 카를로 라우로(국제통계컴퓨팅학회 전 회장)는 이 둘을 구분할 것을 제안하였다. 그는 '통계 컴퓨팅'을 "통계학에 대한 컴퓨터 과학의 응용"으로 정의하고, '전산통계학'은 "컴퓨터상에서 통계적 방법을 구현하기 위한 알고리즘의 설계를 목표로 하며, 컴퓨터 시대 이전에는 생각할 수 없었던 방법(예: 부트스트랩, 시뮬레이션)을 포함하고, 해석적으로 다루기 어려운 문제에 대처하는 것을 목표로 한다"라고 정의하였다 [원문 그대로].^3

'전산통계학'이라는 용어는 리샘플링 방법, 마르코프 연쇄 몬테카를로 방법, 국소 회귀, 커널 밀도 추정, 인공 신경망, 일반화 가법 모형 등 계산 집약적인 통계 방법을 지칭하는 데에도 사용될 수 있다.

역사

전산통계학은 오늘날 널리 사용되고 있지만, 통계학계에서 수용된 역사는 사실 비교적 짧다. 대부분의 경우, 통계학 분야의 창시자들은 전산통계 방법론의 개발에 있어 수학과 점근적 근사에 의존하였다.[^4]

1908년, 윌리엄 실리 고셋은 현재 널리 알려진 몬테카를로 방법 시뮬레이션을 수행하여 스튜던트 t-분포의 발견으로 이어졌다.[^5] 계산적 방법의 도움으로, 그는 경험적 분포를 대응하는 이론적 분포 위에 겹쳐 놓은 도표도 작성하였다. 컴퓨터는 시뮬레이션에 혁명을 일으켰으며, 고셋의 실험을 재현하는 것을 단순한 연습 문제 수준으로 만들었다.[^6][^7]

이후 과학자들은 의사난수를 생성하는 계산적 방법을 제시하고, 역누적분포함수 또는 수락-기각법을 이용하여 균일 난수를 다른 분포 형태로 변환하는 방법을 수행하였으며, 마르코프 연쇄 몬테카를로를 위한 상태공간 방법론을 개발하였다.[^8] 완전 자동화된 방식으로 난수를 생성하려는 최초의 시도 중 하나는 1947년 랜드 연구소에서 수행되었다. 생성된 난수표는 1955년에 서적으로 출판되었으며, 천공 카드 세트로도 발행되었다.

1950년대 중반까지 난수 생성 장치에 관한 여러 논문과 특허가 제안되었다.[^9] 이러한 장치의 개발은 시뮬레이션 수행과 통계 분석의 기타 기본 구성 요소에 난수를 사용해야 할 필요성에서 비롯되었다. 이러한 장치 중 가장 잘 알려진 것 중 하나는 ERNIE로, 영국에서 발행되는 복권 채권인 프리미엄 본드의 당첨자를 결정하는 난수를 생성한다. 1958년에는 존 튜키의 잭나이프가 개발되었다. 이는 비표준 조건에서 표본의 모수 추정치의 편향을 줄이는 방법이다.[^10] 이 방법은 실용적 구현을 위해 컴퓨터를 필요로 한다. 이 시점에 이르러, 컴퓨터는 많은 번거로운 통계 연구를 실현 가능하게 만들었다.[^11]

방법론

최대우도추정

최대우도추정은 관측된 데이터가 주어졌을 때, 가정된 확률 분포의 모수를 추정하는 데 사용된다. 이는 가정된 통계 모형 하에서 관측된 데이터가 가장 높은 확률을 갖도록 우도 함수를 최대화함으로써 달성된다.

몬테카를로 방법

몬테카를로는 수치적 결과를 얻기 위해 반복적인 무작위 표본추출에 의존하는 통계적 방법이다. 그 개념은 원칙적으로 결정론적일 수 있는 문제를 해결하기 위해 무작위성을 이용하는 것이다. 이 방법은 물리학 및 수학 문제에서 자주 사용되며, 다른 접근법을 사용하기 어려울 때 가장 유용하다. 몬테카를로 방법은 주로 최적화, 수치 적분, 확률 분포로부터의 표본 생성이라는 세 가지 문제 유형에 사용된다.

마르코프 연쇄 몬테카를로

마르코프 연쇄 몬테카를로 방법은 알려진 함수에 비례하는 확률 밀도를 가진 연속 확률 변수로부터 표본을 생성한다. 이러한 표본은 해당 변수에 대한 적분값, 예를 들어 기댓값이나 분산을 평가하는 데 사용될 수 있다. 더 많은 단계가 포함될수록 표본의 분포는 실제 원하는 분포에 더 가깝게 일치한다.

부트스트래핑

부트스트랩은 모집단의 원래 표본에 의해 정의된 경험적 확률 분포로부터 표본을 생성하는 데 사용되는 재표본추출 기법이다. 이를 사용하여 모집단 모수의 부트스트랩 추정량을 구할 수 있다. 또한 추정량의 표준오차를 추정하고 부트스트랩 신뢰구간을 생성하는 데에도 사용될 수 있다. 잭나이프는 관련된 기법이다.[^12]

응용 분야

  • 전산생물학
  • 전산언어학
  • 전산수학
  • 전산재료과학
  • 전산물리학
  • 전산심리측정학
  • 전산사회과학
  • 전산사회학
  • 데이터 저널리즘
  • 데이터 과학
  • 계량경제학
  • 기계학습
  • 사회 데이터 과학

전산통계학 학술지

*Communications in Statistics - Simulation and Computation *Computational Statistics *Computational Statistics & Data Analysis *Journal of Computational and Graphical Statistics *Journal of Statistical Computation and Simulation *Journal of Statistical Software *The R Journal *The Stata Journal *Statistics and Computing *Wiley Interdisciplinary Reviews: Computational Statistics

학회

*국제통계컴퓨팅학회

같이 보기

*통계적 분류 알고리즘 *데이터 과학 *인공지능의 통계적 방법 *통계 알고리즘 목록 *통계 패키지 목록 *기계학습

더 읽을거리

논문

    • 서적

                  • 외부 링크

학회

*국제통계컴퓨팅학회 *미국통계학회 통계컴퓨팅 분과

학술지

*Computational Statistics & Data Analysis *Journal of Computational & Graphical Statistics *Statistics and Computing


참고 문헌

[^1]: [[Edward Wegman Wegman, Edward]] J. "[https://www.jstor.org/stable/24536995 계산 통계학: 통계 이론과 실무를 위한 새로운 의제.]" ''[http://www.washacadsci.org/journal/ Journal

[^2]: [[Deborah A. Nolan Nolan, D.]] & Temple Lang, D. (2010). "통계학 교육과정에서의 컴퓨팅", ''[[The American Statistician]]'' '''64''' (2), pp.97-107.

[^4]: Watnik, Mitchell. 초기 계산 통계학. (2011)

[^5]: "Student" [[[William Sealy Gosset]]]. 평균의 개연 오차. (1908)

[^6]: Trahan, Travis John. 로스앨러모스 국립연구소에서의 몬테카를로 방법의 최근 발전. (2019-10-03)

[^7]: Metropolis, Nicholas. 몬테카를로 방법. (1949)

[^8]: Robert, Christian. 마르코프 연쇄 몬테카를로의 짧은 역사: 불완전한 데이터로부터의 주관적 회고. (2011-02-01)

[^9]: 2017 겨울 시뮬레이션 학술대회 (WSC)

[^10]: QUENOUILLE, M. H.. 추정에서의 편향에 관한 노트. (1956)

[^11]: Teichroew, Daniel. 컴퓨터 시대 이전의 분포 표본추출의 역사와 시뮬레이션에 대한 그 관련성. (1965)

[^12]: Rizzo, Maria. R을 이용한 통계 컴퓨팅. CRC Press. (2007년 11월 15일)