통계적 추론
통계적 추론은 데이터 분석을 통해 기저 확률 분포의 속성을 추론하는 과정이다.[^1] 추론 통계 분석은 가설 검정과 추정치 도출 등을 통해 모집단의 속성을 추론한다. 관측된 데이터 집합은 더 큰 모집단에서 표본 추출된 것으로 가정한다.
추론 통계학은 기술 통계학과 대비될 수 있다. 기술 통계학은 오직 관측된 데이터의 속성에만 관심을 두며, 데이터가 더 큰 모집단에서 나왔다는 가정에 의존하지 않는다. 기계 학습에서 추론이라는 용어는 때때로 "이미 훈련된 모델을 평가하여 예측을 수행하는 것"을 의미하는 데 사용되기도 한다.[^10] 이 맥락에서 모델의 속성을 추론하는 것은 (추론이 아닌) 훈련 또는 학습이라 하고, 모델을 사용하여 예측하는 것은 (예측이 아닌) 추론이라 한다. 예측적 추론도 참조할 것.
서론
통계적 추론은 어떤 형태의 표본 추출을 통해 모집단에서 추출한 데이터를 사용하여 모집단에 대한 명제를 제시한다. 추론을 이끌어내고자 하는 모집단에 대한 가설이 주어졌을 때, 통계적 추론은 (첫째) 데이터를 생성하는 과정의 통계적 모형을 선택하고 (둘째) 그 모형으로부터 명제를 도출하는 것으로 구성된다.[^11]
고니시와 기타가와는 "통계적 추론에서 대다수의 문제는 통계적 모형화와 관련된 문제로 간주될 수 있다"고 서술하였다.[^12] 이와 관련하여 데이비드 콕스 경은 "주제 영역의 문제를 통계적 모형으로 변환하는 방법이 분석에서 가장 핵심적인 부분인 경우가 많다"고 말하였다.[^13]
통계적 추론의 결론은 통계적 명제이다.[^14] 통계적 명제의 일반적인 형태는 다음과 같다:
- 점 추정, 즉 관심 있는 모수를 가장 잘 근사하는 특정 값;
- 구간 추정, 예를 들어 신뢰 구간(또는 집합 추정). 신뢰 구간은 표본에서 얻은 데이터를 사용하여 구성한 구간으로, 이 절차를 여러 독립적인 표본에 대해 반복할 경우(수학적으로 극한을 취할 경우) 결과 구간의 일정 비율(예: 95% 신뢰 구간의 경우 95%)이 모수의 참값, 즉 모집단 모수를 포함하게 된다;
- 신용 구간, 즉 예를 들어 사후 믿음의 95%를 포함하는 값의 집합;
- 가설의 기각;
- 데이터 포인트의 군집화 또는 집단 분류.
모형과 가정
모든 통계적 추론에는 일정한 가정이 필요하다. 통계적 모형은 관측된 데이터 및 유사한 데이터의 생성에 관한 일련의 가정이다. 통계적 모형에 대한 기술은 보통 추론의 대상이 되는 모집단의 관심 수량의 역할을 강조한다.[^2] 기술통계학은 일반적으로 보다 공식적인 추론을 수행하기에 앞서 예비 단계로 사용된다.[^15]
모형/가정의 수준
통계학자들은 모형 가정을 세 가지 수준으로 구분한다:
- 완전 모수적: 데이터 생성 과정을 기술하는 확률 분포가 유한한 수의 미지의 모수만을 포함하는 확률 분포족에 의해 완전히 기술된다고 가정한다.[^2] 예를 들어, 모집단 값의 분포가 미지의 평균과 분산을 가진 진정한 정규분포이며, 데이터셋이 '단순' 무작위 표본추출에 의해 생성된다고 가정할 수 있다. 일반화 선형 모형족은 널리 사용되며 유연한 모수적 모형 계열이다.
- 비모수적: 데이터 생성 과정에 대한 가정이 모수적 통계학에 비해 훨씬 적으며 최소한에 그칠 수 있다.[^16] 예를 들어, 모든 연속 확률 분포에는 중앙값이 있으며, 이는 표본 중앙값이나 호지스–레만–센 추정량을 사용하여 추정할 수 있고, 이 추정량은 데이터가 단순 무작위 표본추출에서 발생할 때 좋은 성질을 가진다.
- 준모수적: 이 용어는 일반적으로 완전 모수적 접근법과 비모수적 접근법의 '중간'에 해당하는 가정을 의미한다. 예를 들어, 모집단 분포가 유한한 평균을 가진다고 가정할 수 있다. 나아가, 모집단의 평균 반응 수준이 어떤 공변량에 대해 진정한 선형 방식으로 의존한다고 가정(모수적 가정)하되, 그 평균 주위의 분산에 대해서는(즉, 이분산성의 존재 여부나 가능한 형태에 대해서는) 모수적 가정을 하지 않을 수 있다. 보다 일반적으로, 준모수적 모형은 흔히 '구조적' 성분과 '무작위 변동' 성분으로 분리될 수 있다. 한 성분은 모수적으로, 다른 성분은 비모수적으로 처리된다. 잘 알려진 콕스 모형은 준모수적 가정의 한 집합이다.
타당한 모형/가정의 중요성

어떤 수준의 가정을 하든, 올바르게 교정된 추론은 일반적으로 이러한 가정이 정확할 것을 요구한다; 즉, 데이터 생성 메커니즘이 실제로 올바르게 명시되어 있어야 한다.
'단순' 무작위 표본추출에 대한 잘못된 가정은 통계적 추론을 무효화할 수 있다.[^17] 보다 복잡한 준모수적 및 완전 모수적 가정도 우려의 대상이 된다. 예를 들어, 콕스 모형을 잘못 가정하면 경우에 따라 잘못된 결론에 이를 수 있다.[^18] 모집단의 정규성에 대한 잘못된 가정 또한 일부 형태의 회귀 기반 추론을 무효화한다.[^19] 어떠한 모수적 모형의 사용이든 인간 모집단 표본추출 분야의 대부분의 전문가들은 회의적으로 바라본다: "대부분의 표본추출 통계학자들은 신뢰구간을 다룰 때, 중심극한정리에 의해 [추정량]이 거의 정규분포를 따르게 되는 매우 큰 표본에 기반한 [추정량]에 대한 진술에 자신을 한정한다."[^3] 특히, 정규분포는 "어떤 종류의 경제 모집단을 다루는 경우라면 완전히 비현실적이고 재앙적으로 현명하지 못한 가정이 될 것이다."[^3] 여기서 중심극한정리는 분포가 꼬리가 무겁지 않은 경우, "매우 큰 표본"에 대한 표본 평균의 분포가 근사적으로 정규분포를 따른다고 명시한다.
근사 분포
표본 통계량의 정확한 분포를 명시하기 어려우므로, 이를 근사하기 위한 많은 방법이 개발되었다.
유한 표본의 경우, 근사 결과는 극한 분포가 통계량의 표본 분포에 얼마나 가깝게 접근하는지를 측정한다: 예를 들어, 10,000개의 독립 표본이 있으면 베리–에센 정리에 의해 정규분포는 많은 모집단 분포에 대해 표본 평균의 분포를 (소수점 이하 두 자리 정확도까지) 근사한다.[^4] 그러나 많은 실용적 목적에서, 시뮬레이션 연구와 통계학자들의 경험에 따르면 10개(또는 그 이상의) 독립 표본이 있을 때 정규 근사는 표본 평균의 분포에 대해 좋은 근사를 제공한다.[^4] 1950년대 콜모고로프의 연구를 이어, 고급 통계학에서는 근사 이론과 함수해석학을 사용하여 근사 오차를 정량화한다. 이 접근법에서는 확률 분포의 거리 기하학이 연구되며, 이 접근법은 예를 들어 쿨백–라이블러 발산, 브레그만 발산, 헬링거 거리 등으로 근사 오차를 정량화한다.[^20][^21][^22]
무한히 큰 표본의 경우, 중심극한정리와 같은 극한 결과는 표본 통계량의 극한 분포가 존재할 경우 이를 기술한다. 극한 결과는 유한 표본에 대한 진술이 아니며, 실제로 유한 표본과는 무관하다.[^23][^24][^25] 그러나 극한 분포의 점근 이론은 유한 표본을 다루는 데 자주 원용된다. 예를 들어, 극한 결과는 계량경제학과 생물통계학에서 널리 사용되는 일반화 적률법과 일반화 추정 방정식의 사용을 정당화하기 위해 자주 원용된다. 극한 분포와 실제 분포 간 차이의 크기(공식적으로는 근사의 '오차')는 시뮬레이션을 통해 평가할 수 있다.[^26] 극한 결과를 유한 표본에 경험적으로 적용하는 것은 많은 응용 분야에서, 특히 로그 오목 우도를 가진 저차원 모형(예: 단일 모수 지수족)에서 일반적인 관행이다.
무작위화 기반 모형
주어진 무작위화 설계에 의해 생성된 데이터셋의 경우, (귀무가설 하에서의) 통계량의 무작위화 분포는 무작위화 설계에 의해 생성될 수 있었던 모든 계획에 대해 검정 통계량을 평가함으로써 정의된다. 빈도주의적 추론에서 무작위화는 주관적 모형이 아닌 무작위화 분포에 기반한 추론을 가능하게 하며, 이는 특히 표본 조사와 실험 설계에서 중요하다.[^27] 무작위화 연구로부터의 통계적 추론은 다른 많은 상황보다 더 직관적이다.[^28][^29][^30] 베이즈 추론에서도 무작위화는 중요하다: 표본 조사에서 비복원 추출의 사용은 표본과 모집단의 교환가능성을 보장하며, 무작위화 실험에서 무작위화는 공변량 정보에 대한 무작위 결측 가정을 정당화한다.[^31]
객관적 무작위화는 적절한 귀납적 절차를 가능하게 한다.^32[^34][^35] 많은 통계학자들은 잘 정의된 무작위화 절차에 의해 생성된 데이터의 무작위화 기반 분석을 선호한다.[^36] (그러나, 이론적 지식과 실험적 통제가 발달한 과학 분야에서는 무작위화 실험이 추론의 질을 향상시키지 않으면서 실험 비용을 증가시킬 수 있다는 것도 사실이다.[^37][^38]) 마찬가지로, 무작위화 실험의 결과는 동일한 현상에 대한 관찰 연구보다 더 높은 신뢰성을 가진 추론을 가능하게 하는 것으로서 주요 통계학 권위자들에 의해 권장된다.[^39] 그러나, 좋은 관찰 연구가 나쁜 무작위화 실험보다 나을 수 있다.
무작위화 실험의 통계적 분석은 실험 프로토콜에 명시된 무작위화 방식에 기반할 수 있으며 주관적 모형을 필요로 하지 않는다.[^40][^41]
그러나 어떤 시점에서든, 무작위화 실험이나 무작위 표본을 정확히 기술하는 객관적 통계 모형으로는 검정할 수 없는 가설들이 있다. 어떤 경우에는 그러한 무작위화 연구가 비경제적이거나 비윤리적이다.
무작위화 실험의 모형 기반 분석
무작위화 실험의 데이터를 분석할 때 선형 모형이나 로지스틱 모형과 같은 통계적 모형을 참조하는 것이 표준적인 관행이다. 그러나 무작위화 방식이 통계적 모형의 선택을 안내한다. 무작위화 방식을 알지 못한 채 적절한 모형을 선택하는 것은 불가능하다. 실험 프로토콜을 무시한 채 무작위화 실험의 데이터를 분석하면 심각하게 오해의 소지가 있는 결과를 얻을 수 있다; 흔한 실수로는 실험에서 사용된 블록화를 잊거나, 동일한 실험 단위에 대한 반복 측정을 서로 다른 실험 단위에 적용된 처리의 독립적인 반복으로 혼동하는 것이 있다.[^42]
모형 없는 무작위화 추론
모형 없는 기법은 현실 단순화의 환원주의적 전략을 사용하는 모형 기반 방법에 대한 보완을 제공한다. 전자는 과정의 맥락적 친화성에 동적으로 적응하면서 알고리즘을 결합, 진화, 앙상블 및 훈련하며 관측값의 내재적 특성을 학습한다.
예를 들어, 모형 없는 단순 선형 회귀는 다음 중 하나에 기반한다:
- 무작위 설계: 관측 쌍 (X_1,Y_1), (X_2,Y_2), \cdots , (X_n,Y_n)이 독립이고 동일하게 분포(iid)하는 경우,
- 또는 결정적 설계: 변수 X_1, X_2, \cdots, X_n은 결정적이지만 대응하는 반응 변수 Y_1,Y_2, \cdots, Y_n은 공통 조건부 분포를 가진 무작위이고 독립적인 경우, 즉 P\left (Y_j \leq y | X_j =x\right ) = D_x(y)이며 이는 지표 j와 무관하다.
어느 경우든, 공통 조건부 분포 D_x(.)의 특성에 대한 모형 없는 무작위화 추론은 함수의 매끄러움과 같은 일부 정칙 조건에 의존한다. 예를 들어, 모집단 특성인 조건부 평균 \mu(x)=E(Y | X = x)에 대한 모형 없는 무작위화 추론은 \mu(x)가 매끄럽다는 가정 하에 국소 평균화 또는 국소 다항식 적합을 통해 일치추정될 수 있다. 또한 점근적 정규성 또는 재표본추출에 의존하여 모집단 특성, 이 경우 조건부 평균 \mu(x)에 대한 신뢰구간을 구성할 수 있다.
추론의 패러다임
통계적 추론의 여러 학파가 확립되어 왔다. 이러한 학파들—또는 "패러다임"들—은 상호 배타적이지 않으며, 한 패러다임에서 잘 작동하는 방법들은 다른 패러다임에서도 매력적인 해석을 갖는 경우가 많다.
반디오파디아이와 포스터는 네 가지 패러다임을 설명한다: 고전적(또는 빈도주의적) 패러다임, 베이즈 패러다임, 우도주의 패러다임, 그리고 아카이케 정보 기준 기반 패러다임이다.[^43]
빈도주의 추론
이 패러다임은 현재 가지고 있는 것과 유사한 데이터셋을 생성하기 위해 모집단 분포의 (관념적) 반복 표본추출을 고려함으로써 명제의 타당성을 검증한다. 반복 표본추출 하에서 데이터셋의 특성을 고려함으로써, 통계적 명제의 빈도주의적 속성을 정량화할 수 있다—비록 실제로 이러한 정량화가 어려울 수 있지만 말이다.
빈도주의 추론의 예시
- p-값
- 신뢰구간
- 귀무가설 유의성 검정
빈도주의 추론, 객관성, 그리고 결정 이론
빈도주의 추론(또는 고전적 추론)의 한 가지 해석은 그것이 빈도 확률의 관점에서만 적용 가능하다는 것이다; 즉, 모집단으로부터의 반복 표본추출의 관점에서만 적용 가능하다는 것이다. 그러나 네이만[^44]의 접근법은 이러한 절차를 실험 전 확률의 관점에서 발전시킨다. 즉, 실험을 수행하기 전에, 올바를 확률이 적절한 방식으로 통제되도록 결론에 도달하기 위한 규칙을 결정한다: 이러한 확률이 반드시 빈도주의적 또는 반복 표본추출 해석을 가질 필요는 없다. 이와 대조적으로, 베이즈 추론은 조건부 확률(즉, 관측된 데이터에 조건부인 확률)의 관점에서 작동하며, 이는 빈도주의 접근법에서 사용되는 주변(그러나 미지의 모수에 조건부인) 확률과 비교된다.
유의성 검정과 신뢰구간의 빈도주의 절차는 효용 함수를 고려하지 않고도 구성할 수 있다. 그러나 통계적 결정 이론과 같은 빈도주의 통계학의 일부 요소는 효용 함수를 포함한다. 특히, 최적 추론의 빈도주의적 발전(최소분산 불편추정량이나 균일최강력 검정 등)은 (부정적) 효용 함수의 역할을 하는 손실 함수를 활용한다. 통계 이론가들이 통계 절차가 최적성 속성을 가진다는 것을 증명하기 위해 손실 함수가 명시적으로 기술될 필요는 없다.[^45] 그러나 손실 함수는 최적성 속성을 기술하는 데 종종 유용하다: 예를 들어, 중앙값-불편 추정량은 절대값 손실 함수 하에서 기대 손실을 최소화한다는 점에서 최적이며, 최소제곱 추정량은 제곱오차 손실 함수 하에서 기대 손실을 최소화한다는 점에서 최적이다.
빈도주의 추론을 사용하는 통계학자들이 관심 모수와 사용할 추정량/검정통계량을 스스로 선택해야 하지만, 명백히 명시적인 효용과 사전 분포의 부재는 빈도주의 절차가 '객관적'인 것으로 널리 여겨지는 데 기여했다.[^46]
베이즈 추론
베이즈 계산법은 확률의 '언어'를 사용하여 믿음의 정도를 기술한다; 믿음은 양수이고, 적분하면 1이 되며, 확률 공리를 따른다. 베이즈 추론은 이용 가능한 사후 믿음을 통계적 명제를 만드는 기초로 사용한다.[^47] 베이즈 접근법을 사용하는 데에는 여러 가지 정당화가 있다.
베이즈 추론의 예시
- 구간 추정을 위한 신용구간
- 모형 비교를 위한 베이즈 인자
베이즈 추론, 주관성, 그리고 결정 이론
많은 비공식적 베이즈 추론은 사후 분포의 "직관적으로 합리적인" 요약에 기반한다. 예를 들어, 사후 평균, 중앙값 및 최빈값, 최고사후밀도구간, 그리고 베이즈 인자는 모두 이런 방식으로 동기 부여될 수 있다. 이러한 종류의 추론에 사용자의 효용 함수가 명시될 필요는 없지만, 이러한 요약들은 모두 (어느 정도) 명시된 사전 믿음에 의존하며, 일반적으로 주관적 결론으로 간주된다. (외부 입력을 필요로 하지 않는 사전 분포 구성 방법이 제안되었으나 아직 완전히 개발되지는 않았다.)
형식적으로, 베이즈 추론은 명시적으로 기술된 효용 또는 손실 함수를 참조하여 보정된다; '베이즈 규칙'은 사후 불확실성에 대해 평균한 기대 효용을 최대화하는 것이다. 따라서 형식적 베이즈 추론은 결정 이론적 의미에서 자동적으로 최적의 결정을 제공한다. 가정, 데이터 및 효용이 주어지면, 베이즈 추론은 본질적으로 모든 문제에 대해 수행될 수 있지만, 모든 통계적 추론이 반드시 베이즈적 해석을 가져야 하는 것은 아니다. 형식적으로 베이즈적이지 않은 분석은 (논리적으로) 비정합적일 수 있다; 적절한 사전 분포(즉, 1로 적분 가능한 사전 분포)를 사용하는 베이즈 절차의 특징은 정합성이 보장된다는 것이다. 베이즈 추론의 일부 옹호자들은 추론이 반드시 이 결정 이론적 틀 내에서 이루어져야 한다고 주장하며, 베이즈 추론이 사후 믿음의 평가와 요약으로 끝나서는 안 된다고 주장한다.
우도 기반 추론
우도 기반 추론은 관측된 데이터를 바탕으로 통계적 모형의 모수를 추정하는 데 사용되는 패러다임이다. 우도주의는 우도 함수를 사용하여 통계학에 접근하며, L(x | \theta)로 표기되는 이 함수는 특정 모수 값 \theta를 가정할 때 주어진 데이터 x를 관측할 확률을 정량화한다. 우도 기반 추론에서의 목표는 우도 함수를 최대화하는, 즉 주어진 데이터를 관측할 확률을 최대화하는 모수 값의 집합을 찾는 것이다.
우도 기반 추론의 과정은 일반적으로 다음 단계를 포함한다:
- 통계적 모형의 정식화: 당면한 문제에 기반하여 통계적 모형을 정의하고, 분포적 가정과 관측 데이터와 미지의 모수 사이의 관계를 명시한다. 모형은 분산이 알려진 정규분포처럼 단순할 수도 있고, 여러 수준의 랜덤 효과를 가진 계층적 모형처럼 복잡할 수도 있다.
- 우도 함수의 구성: 통계적 모형이 주어지면, 관측 데이터의 결합확률밀도함수 또는 질량함수를 미지의 모수의 함수로 평가하여 우도 함수를 구성한다. 이 함수는 모수의 다양한 값에 대해 데이터를 관측할 확률을 나타낸다.
- 우도 함수의 최대화: 다음 단계는 우도 함수를 최대화하는 모수 값의 집합을 찾는 것이다. 이는 수치 최적화 알고리즘과 같은 최적화 기법을 사용하여 달성할 수 있다. 추정된 모수 값은 흔히 \bar{y}로 표기되며, 최대우도추정량(MLE)이라 한다.
- 불확실성 평가: 최대우도추정량을 얻은 후에는 모수 추정치와 관련된 불확실성을 정량화하는 것이 중요하다. 이는 표준오차, 신뢰구간을 계산하거나, 점근 이론 또는 부트스트래핑과 같은 시뮬레이션 기법에 기반한 가설 검정을 수행함으로써 이루어질 수 있다.
- 모형 검진: 모수 추정치를 얻고 그 불확실성을 평가한 후에는, 통계적 모형의 적절성을 평가하는 것이 중요하다. 이는 모형에서 설정한 가정을 점검하고, 적합도 검정, 잔차 분석, 또는 그래프 진단을 사용하여 데이터에 대한 모형의 적합도를 평가하는 것을 포함한다.
- 추론 및 해석: 마지막으로, 추정된 모수와 모형 평가를 바탕으로 통계적 추론을 수행할 수 있다. 이는 모집단 모수에 대한 결론을 도출하고, 예측을 하거나, 추정된 모형에 기반한 가설을 검정하는 것을 포함한다.
AIC 기반 추론
아카이케 정보 기준(AIC)은 주어진 데이터 집합에 대한 통계적 모형들의 상대적 품질을 추정하는 도구이다. 데이터에 대한 모형들의 모음이 주어지면, AIC는 각 모형의 품질을 다른 모형들에 대해 상대적으로 추정한다. 따라서 AIC는 모형 선택의 수단을 제공한다.
AIC는 정보 이론에 기초한다: 주어진 모형이 데이터를 생성한 과정을 표현하는 데 사용될 때 손실되는 상대적 정보량의 추정치를 제공한다. (이 과정에서, 모형의 적합도와 모형의 단순성 사이의 절충을 다룬다.)
추론의 기타 패러다임
최소 기술 길이
최소 기술 길이(MDL) 원리는 정보 이론과 콜모고로프 복잡도 이론의 아이디어로부터 발전되었다.[^5] MDL 원리는 데이터를 최대한 압축하는 통계적 모형을 선택한다; 빈도주의적 또는 베이즈적 접근법에서 수행할 수 있는 것처럼 반사실적이거나 반증 불가능한 "데이터 생성 메커니즘"이나 데이터에 대한 확률 모형을 가정하지 않고 추론이 이루어진다.
그러나 "데이터 생성 메커니즘"이 실제로 존재한다면, 섀넌의 소스 부호화 정리에 따르면 이는 평균적으로 그리고 점근적으로 데이터의 MDL 기술을 제공한다.[^6] 기술 길이(또는 기술적 복잡도)를 최소화하는 데 있어서, MDL 추정은 최대우도추정 및 최대사후확률추정(최대 엔트로피 베이즈 사전 분포 사용)과 유사하다. 그러나 MDL은 기저 확률 모형이 알려져 있다고 가정하는 것을 피한다; MDL 원리는 예를 들어 데이터가 독립 표본추출로부터 발생했다는 가정 없이도 적용할 수 있다.[^7]
MDL 원리는 정보 이론의 통신 부호화 이론과 선형 회귀에 적용되어 왔다.[^8]
피듀셜 추론
피듀셜 추론은 피듀셜 확률, 또는 "피듀셜 분포"라고도 알려진 것에 기반한 통계적 추론 접근법이었다. 이후의 연구에서 이 접근법은 정의가 불분명하고, 적용 가능성이 극히 제한적이며, 심지어 오류적이라고까지 불려왔다.^48 그러나 이 논증은 소위 신뢰분포가 유효한 확률분포가 아님을 보여주는[^50] 것과 동일한 논증이며, 이것이 신뢰구간의 적용을 무효화하지 않았으므로, 피듀셜 논증에서 도출된 결론을 반드시 무효화하는 것은 아니다. 피셔의 초기 피듀셜 논증을 상한 및 하한 확률을 사용하는 추론 이론의 특수한 경우로 재해석하려는 시도가 있었다.
구조적 추론
1938년부터 1939년까지의 피셔와 핏먼의 아이디어를 발전시켜,[^51] 조지 A. 바나드는 군족에 대한 불변 확률을 사용하는 접근법인 "구조적 추론" 또는 "피벗 추론"을 개발했다.[^52] 바나드는 "피듀셜" 절차가 잘 정의되고 유용한 제한된 모형 클래스에서 피듀셜 추론의 배경 논증을 재구성했다. 도널드 A. S. 프레이저는 군론에 기반한 구조적 추론의 일반 이론을 개발했으며[^53] 이를 선형 모형에 적용했다.[^54] 프레이저가 정식화한 이론은 결정 이론 및 베이즈 통계학과 밀접한 관련이 있으며, 최적의 빈도주의 결정 규칙이 존재하는 경우 이를 제공할 수 있다.[^55]
추론 주제
아래 주제들은 일반적으로 통계적 추론 분야에 포함된다.
- 통계적 가정
- 통계적 결정 이론
- 추정 이론
- 통계적 가설 검정
- 통계학에서의 의견 수정
- 실험 설계, 분산 분석, 회귀 분석
- 표본 조사
- 통계 데이터 요약
예측적 추론
예측적 추론은 과거 관측에 기반하여 미래 관측을 예측하는 데 중점을 두는 통계적 추론의 접근법이다.
초기에 예측적 추론은 관측 가능한 매개변수에 기반하였으며, 이것이 확률을 연구하는 주된 목적이었다. 그러나 브루노 데 피네티가 개척한 새로운 모수적 접근법으로 인해 20세기에 들어 관심에서 멀어졌다. 이 접근법은 현상을 오차가 포함된 물리적 체계로 모형화하였다(예: 천체역학). 데 피네티의 교환가능성 개념—미래의 관측은 과거의 관측과 같은 방식으로 행동해야 한다는 것—은 그의 1937년 논문이 1974년에 프랑스어에서 영어로 번역되면서 영어권 세계에 알려졌으며,[^56] 이후 시무어 가이서와 같은 통계학자들에 의해 주창되었다.[^9]
같이 보기
- 알고리즘적 추론
- 귀납법 (철학)
- 비형식적 추론적 사고
- 정보장 이론
- 모비율
- 통계학의 철학
- 예측 구간
- 예측 분석
- 예측 모델링
- 문체 분석
주석
인용
출처
- .
-
- Cox, D. R. (2006). 통계적 추론의 원리, Cambridge University Press. .
- Fisher, R. A. (1955), "통계적 방법과 과학적 귀납", Journal of the Royal Statistical Society, Series B, 17, 69–78. (Jerzy Neyman과 Abraham Wald의 통계 이론에 대한 비판)
-
- Freedman, D. A. (2010). 통계 모형과 인과 추론: 사회과학과의 대화 (David Collier, Jasjeet Sekhon, Philip B. Stark 편집), Cambridge University Press.
-
-
-
- 재판:
-
-
- Konishi S., Kitagawa G. (2008), 정보 기준과 통계적 모델링, Springer.
-
- Le Cam, Lucian. (1986) 통계적 결정 이론의 점근적 방법, Springer.
- Moore, D. S.; McCabe, G. P.; Craig, B. A. (2015), 통계 실무 입문, 제8판, Macmillan.
- (Fisher 1955에 대한 답변)
- Peirce, C. S. (1877–1878), "과학의 논리에 대한 예증" (연재), Popular Science Monthly, vols. 12–13. 관련 개별 논문: ** (1878년 3월), "우연의 교리", Popular Science Monthly, v. 12, 3월호, pp. 604–615. Internet Archive 전자본. ** (1878년 4월), "귀납의 확률", Popular Science Monthly, v. 12, pp. 705–718. Internet Archive 전자본. ** (1878년 6월), "자연의 질서", Popular Science Monthly, v. 13, pp. 203–217.Internet Archive 전자본. ** (1878년 8월), "연역, 귀납, 그리고 가설", Popular Science Monthly, v. 13, pp. 470–482. Internet Archive 전자본.
- Peirce, C. S. (1883), "개연적 추론의 이론", Studies in Logic, pp. 126-181, Little, Brown, and Company. (1983년 재판, John Benjamins Publishing Company, )
-
-
-
-
-
-
더 읽을거리
-
-
-
-
-
- Casella, G., Berger, R. L. (2002). 통계적 추론. Duxbury Press.
-
- Held L., Bové D.S. (2014). 응용 통계적 추론—우도와 베이즈 (Springer).
-
-
- Rahlf, Thomas (2014). "통계적 추론", Claude Diebolt, Michael Haupert (편), "계량역사학 핸드북 (Springer Reference Series)", Berlin/Heidelberg: Springer.
-
-
- Sagitov, Serik (2022). "통계적 추론". Wikibooks. http://upload.wikimedia.org/wikipedia/commons/f/f9/Statistical_Inference.pdf
- Young, G.A., Smith, R.L. (2005). 통계적 추론의 핵심, CUP.
외부 링크
- 통계적 추론 – MIT 오픈코스웨어 플랫폼 강의
- 통계적 추론 – 국가 기술 강화 학습 프로그램 강의
- 온라인 베이즈(MCMC) 데모/계산기가 causaScientia에서 이용 가능
- 통계적 추론 – 인터랙티브 Coggle 다이어그램
참고 문헌
[^1]: Upton, G., Cook, I. (2008) ''Oxford Dictionary of Statistics'', OUP. ISBN 978-0-19-954145-4 .
[^2]: Cox (2006) 2쪽
[^3]: Brewer, Ken. 결합 조사 표본 추론: Basu의 코끼리 무게 측정. Hodder Arnold
[^4]: (2012년 11월)
[^5]: Hansen & Yu (2001)
[^6]: Hansen and Yu (2001), 747쪽.
[^7]: Rissanen (1989), 84쪽
[^8]: (2011년 6월)
[^9]: [[Seymour Geisser Geisser, Seymour]] (1993) ''[https://books.google.com/books?id=wfdlBZ_iwZoC 예측적 추론: 입문]'', CRC Press. isbn 0-412-03471-9
[^10]: TensorFlow Lite 추론
[^11]: Johnson, Richard. 통계적 추론. Springer: The European Mathematical Society. (2016년 3월 12일)
[^12]: Konishi & Kitagawa (2008), 75쪽.
[^13]: Cox (2006), 197쪽.
[^14]: 통계적 추론 - 수학 백과사전
[^15]: Evans, Michael. 확률과 통계: 불확실성의 과학. Freeman and Company
[^16]: van der Vaart, A.W. (1998) ''점근 통계학'' Cambridge University Press. isbn 0-521-78450-6 (341쪽)
[^17]: Kruskal 1988
[^18]: [[David A. Freedman Freedman, D.A.]] (2008) "생존 분석: 역학적 위험?". ''The American Statistician'' (2008) 62: 110-119. (Freedman (201)의 제11장 (169–192쪽)으로 재수록
[^19]: Berk, R. (2003) ''회귀분석: 건설적 비평 (사회과학의 고급 정량 기법) (v. 11)'' Sage Publications. ISBN 0-7619-2904-5
[^20]: (2011년 6월)
[^21]: (2012년 11월)
[^22]: 통계적 결정 이론: 추정, 검정, 선택. Springer
[^23]: Kolmogorov (1963, p.369): "시행 횟수가 무한대로 증가할 때 극한 빈도의 개념에 기반한 빈도 개념은 아무것도 기여하지 않는다
[^24]: "실제로, 'n이 무한대로 갈 때'의 극한 정리는 특정한 n에서 무엇이 일어나는지에 대해 논리적으로 아무런 내용도 담고 있지 않다. 그것이 할 수 있는 것은 특정한 접근법을 제안하는 것뿐이다
[^25]: Pfanzagl (1994): "점근 이론의 결정적 단점: 우리가 점근 이론에서 기대하는 것은 근사적으로 성립하는 결과이다 . . . . 점근 이론이 제공할 수 있는 것은 극한 정리이다."
[^26]: Pfanzagl (1994) : "극한 정리를 큰 표본 크기에 대해 근사적으로 참인 것으로 받아들임으로써, 우리는 그 크기를 알 수 없는 오류를 범하게 된다. [. . .] 잔여 오류에 대한 현실적 정보
[^27]: [Jerzy Neyman Neyman, J.] "대표 방법의 두 가지 다른 측면에 대하여: 층화 표본 추출법과 유의 선택법", ''[[Journal of the Royal Statist
[^28]: 비통계학자를 위한 통계학 첫 번째 과정에 대한 ASA 지침. (ASA 웹사이트에서 이용 가능)
[^29]: [[David A. Freedman]] 외 ''통계학''.
[^30]: Moore 외 (2015).
[^31]: [[Andrew Gelman Gelman A.]] 외 (2013). ''베이즈 데이터 분석'' ([[Chapman & Hall]]).
[^34]: [[David A. Freedman]] ''통계 모형''.
[^35]: [[C. R. Rao Rao, C.R.]] (1997) ''통계와 진실: 우연을 활용하기'', World Scientific. isbn 981-02-3111-3
[^36]: (2010년 3월)
[^37]: Box, G.E.P. and Friends (2006) ''거의 모든 것을 개선하기: 아이디어와 에세이, 개정판'', Wiley. isbn 978-0-471-72755-2
[^38]: Cox (2006), 196쪽.
[^39]: 비통계학자를 위한 통계학 첫 번째 과정에 대한 ASA 지침. (ASA 웹사이트에서 이용 가능)
- David A. Freedman 외 ''통계학''.
- Moore 외 (2015).
[^40]: Neyman, Jerzy. 1923 [1990]. "농업 실험에 대한 확률 이론의 적용에 관하여. 원리에 대한 논고. 제9절." ''Statistical Science'' 5 (4): 465–472. 번역 [[Dorota Dabrowska Dor
[^41]: (2011년 6월)
[^42]: Hinkelmann and Kempthorne (2008) 제6장.
[^43]: Bandyopadhyay & Forster (2011). 이 책의 서문(3쪽)과 "제III부: 통계학의 네 가지 패러다임" 참조.
[^44]: cite journal last = Neyman first = J. author-link = Jerzy Neyman year = 1937 title = 고전 확률 이론에 기반한 통계적 추정 이론의 개요 jstor = 9133
[^45]: Pfanzagl 서문.
[^46]: Little, Roderick J.. 교정된 베이즈: 베이즈/빈도주의 로드맵. (2006)
[^47]: Lee, Se Yoon
[^50]: Cox (2006) 66쪽
[^51]: (2012년 11월)
[^52]: Barnard, G.A. (1995) "중추 모형과 신뢰 논증", International Statistical Review, 63 (3), 309–323. JSTOR 1403482
[^53]: Fraser, D. A. S.. 추론의 구조. Wiley. (1968)
[^54]: Fraser, D. A. S.. 추론과 선형 모형. McGraw-Hill. (1979)
[^55]: Taraldsen, Gunnar. 신뢰 이론과 최적 추론. (2013-02-01)
[^56]: De Finetti, Bruno. 예측: 그 논리적 법칙과 주관적 원천
관련 인사이트

디지털 트윈, 당신 공장엔 이미 있다 — 엑셀과 MES 사이 어딘가에
디지털 트윈은 10억짜리 3D 시뮬레이션이 아니다. 지금 쓰고 있는 엑셀에 좋은 질문 하나를 더하는 것 — 두 전문가가 중소 제조기업이 이미 가진 데이터로 예측하는 공장을 만드는 현실적 로드맵을 제시한다.

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.

그 30분을 18년 동안 매일 반복했습니다 — 품질팀장이 본 AI Agent
18년차 품질팀장이 매일 아침 30분씩 반복하던 데이터 분석을 AI Agent가 3분 만에 해냈습니다. 챗봇과는 완전히 다른 물건 — 직접 시스템에 접근해서 데이터를 꺼내고 분석하는 AI의 현장 도입기.