편향-분산 트레이드오프

Here is the translated article:

Bias and variance as function of model complexity

통계학과 기계 학습에서 편향-분산 트레이드오프는 모델의 복잡도, 예측의 정확도, 그리고 모델 훈련에 사용되지 않은 이전에 보지 못한 데이터에 대해 얼마나 잘 예측할 수 있는지 사이의 관계를 설명한다. 일반적으로 모델에서 조정 가능한 매개변수의 수가 증가하면 모델은 더 유연해지고 훈련 데이터 세트에 더 잘 적합할 수 있다. 즉, 모델의 오차 또는 편향이 낮아진다. 그러나 더 유연한 모델의 경우, 새로운 훈련 데이터 세트를 만들기 위해 표본 집합을 취할 때마다 모델 적합에 더 큰 분산이 존재하는 경향이 있다. 이를 모델의 추정 매개변수에 더 큰 분산이 있다고 말한다.

편향-분산 딜레마 또는 편향-분산 문제는 지도 학습 알고리즘이 훈련 세트를 넘어 일반화하는 것을 방해하는 두 가지 오차 원인을 동시에 최소화하려는 시도에서 발생하는 충돌이다:[^1][^2]

편향 오차는 학습 알고리즘의 잘못된 가정에서 비롯되는 오차이다. 높은 편향은 알고리즘이 특성과 목표 출력 사이의 관련 관계를 놓치게 할 수 있다(과소적합).
분산은 훈련 세트의 작은 변동에 대한 민감도에서 비롯되는 오차이다. 높은 분산은 알고리즘이 훈련 데이터의 무작위 잡음을 모델링하는 것에서 기인할 수 있다(과대적합).

편향-분산 분해는 특정 문제에 대한 학습 알고리즘의 기대 일반화 오차를 세 가지 항, 즉 편향, 분산, 그리고 문제 자체의 잡음에서 비롯되는 줄일 수 없는 오차라 불리는 양의 합으로 분석하는 방법이다.

동기

복잡한 모델이 반드시 높은 분산을 가져야 한다고 가정하는 것은 흔히 저질러지는 오류이다.[^3][^4] 높은 분산 모델은 어떤 의미에서 "복잡"하지만, 그 역은 반드시 성립하지 않는다.[^9] 또한 복잡성을 어떻게 정의할지에 대해 주의가 필요하다. 특히, 모델을 설명하는 데 사용되는 매개변수의 수는 복잡성의 좋은 척도가 아니다. 이는 다음에서 각색한 예로 설명할 수 있다.[^10] 모델 f_{a,b}(x)=a\sin(bx)은 두 개의 매개변수(a,b)만 가지지만, 충분히 높은 주파수로 진동함으로써 임의의 수의 점들을 보간할 수 있으며, 이는 높은 편향과 높은 분산을 동시에 초래한다.

정확도(accuracy)와 정밀도(precision)의 관계에 비유할 수 있다. 정확도는 편향을 정량화하는 한 가지 방법이며, 직관적으로 국소적인 정보만을 선택함으로써 개선할 수 있다. 따라서 앞서 언급한 선택 조건 하에서 표본은 정확해 보이지만(즉, 낮은 편향을 가지지만), 과소적합을 초래할 수 있다. 다시 말해, 테스트 데이터가 훈련 데이터와 밀접하게 일치하지 않을 수 있으며, 이는 부정밀과 따라서 부풀려진 분산을 나타낸다. 그래프로 나타낸 예는 전체적으로 이차 거동을 보이는 데이터에 직선을 적합시킨 것이다. 정밀도는 분산에 대한 기술이며, 일반적으로 비교적 더 넓은 공간에서 정보를 선택해야만 개선될 수 있다. 넓은 표본 공간에 걸쳐 많은 데이터 포인트를 선택할 수 있는 옵션은 모든 분석에서 이상적인 조건이다. 그러나 본질적인 제약(물리적, 이론적, 계산적 등)이 항상 제한적 역할을 한다. 넓은 표본 공간에 걸쳐 유한한 수의 데이터 포인트만 선택하는 극단적인 경우는 전체적으로 정밀도가 개선되고 분산이 낮아질 수 있지만, 훈련 데이터에 대한 과도한 의존(과적합)을 초래할 수도 있다. 이는 테스트 데이터 역시 훈련 데이터와 밀접하게 일치하지 않음을 의미하지만, 이 경우 그 원인은 부정확 또는 높은 편향이다. 앞의 예를 빌리자면, 그래프 표현은 동일한 이차 거동을 보이는 데이터에 고차 다항식을 적합시킨 것으로 나타날 것이다. 각 경우의 오차는 동일한 방식으로 측정되지만, 오차에 귀속되는 원인은 편향과 분산 사이의 균형에 따라 다르다는 점에 유의해야 한다. 이웃 관측값으로부터 사용되는 정보의 양을 완화하기 위해, 축소(shrinkage)와 같은 명시적 정규화를 통해 모델을 평활화할 수 있다.

평균 제곱 오차의 편향–분산 분해

[[File:Bias-variance decomposition.png|thumb|평균 제곱 손실의 경우에서의 편향–분산 분해. 초록색 점들은 고정된 테스트 특성 x에서의 테스트 레이블 y의 표본이다. 평균 \mathbb E_{y \sim p(\cdot | x)}[y] 주변의 분산이 축소 불가능 오차 \sigma^2이다. 빨간색 점들은 훈련 집합 D를 무작위로 추출할 때의 테스트 레이블 예측값 f(x | D)이다. 평균 \mathbb E_D[f(x | D)] 주변의 분산이 분산 \operatorname{Var}_D\big[f(x | D)\big] 이다. 빨간 점선과 초록 점선 사이의 차이가 편향 \operatorname{Bias}_D\big[f (x | D)\big] 이다. 편향–분산 분해는 시각적으로 명확하다: 빨간 점과 초록 점 사이의 평균 제곱 오차는 세 가지 성분의 합이다.]] 점들의 집합 x_1, \dots, x_n과 각 점 x_i에 대응하는 실수값 레이블 y_i로 구성된 훈련 집합이 있다고 가정하자. 데이터가 y = f(x) + \varepsilon와 같은 함수 f(x)에 의해 생성된다고 가정하며, 여기서 잡음 \varepsilon는 평균이 0이고 분산이 \sigma^2이다. 즉, y_i = f(x_i) + \varepsilon_i이며, \varepsilon_i는 잡음 표본이다.

우리는 훈련 데이터셋(표본) D={(x_1,y_1) \dots, (x_n, y_n)}에 기반한 학습 알고리즘을 통해, 참 함수 f(x)를 가능한 한 잘 근사하는 함수 \hat{f}!(x;D)를 찾고자 한다. "가능한 한 잘"이라는 것을 y와 \hat{f}!(x;D) 사이의 평균 제곱 오차를 측정하여 정밀하게 정의한다: x_1, \dots, x_n에 대해서뿐만 아니라 표본 외부의 점들에 대해서도 (y - \hat{f}!(x;D))^2가 최소가 되기를 원한다. 물론 y_i에는 잡음 \varepsilon가 포함되어 있으므로 완벽하게 달성할 수는 없다; 이는 우리가 만드는 어떤 함수에서든 축소 불가능 오차를 받아들여야 함을 의미한다.

훈련 집합 외부의 점들로 일반화되는 \hat{f}를 찾는 것은 지도 학습에 사용되는 수많은 알고리즘 중 어느 것으로든 수행할 수 있다. 어떤 함수 \hat{f}를 선택하든, 미관측 표본 x에 대한 기대 오차(즉, x에 조건부인)를 다음과 같이 분해할 수 있다:[^5][^6]

여기서 \begin{align} \operatorname{Bias}_D\big[\hat{f}!(x;D)\big] &\triangleq \mathbb{E}_D\big[\hat{f}!(x;D)- f(x)\big]\ &= \mathbb{E}_D\big[\hat{f}!(x;D)\big] , - , f(x)\ &= \mathbb{E}D\big[\hat{f}!(x;D)\big] , - , \mathbb{E}{y|x}\big[y(x)\big] \end{align}

그리고

기댓값은 모두 동일한 결합 분포 P(x,y)에서 추출된 훈련 집합 D={(x_1,y_1) \dots, (x_n, y_n)}의 서로 다른 선택에 대해 계산되며, 이는 예를 들어 부트스트래핑을 통해 수행할 수 있다. 세 항은 각각 다음을 나타낸다:

학습 방법의 편향의 제곱으로, 방법에 내재된 단순화 가정으로 인해 발생하는 오차로 생각할 수 있다. 예를 들어, 비선형 함수 f(x)를 선형 모델의 학습 방법으로 근사할 때, 이 가정으로 인해 추정값 \hat{f}!(x)에 오차가 발생한다;
학습 방법의 분산, 즉 직관적으로 학습 방법 \hat{f}!(x)가 평균 주변에서 얼마나 변동하는지를 나타낸다;
축소 불가능 오차 \sigma^2.

세 항 모두 음이 아니므로, 축소 불가능 오차는 미관측 표본에 대한 기대 오차의 하한을 형성한다.[^5]

모델 \hat{f}!(x)가 복잡할수록 더 많은 데이터 점을 포착하여 편향이 낮아진다. 그러나 복잡성은 모델이 데이터 점을 포착하기 위해 더 많이 "움직이게" 만들므로 분산이 커진다.

유도

제곱 오차에 대한 편향–분산 분해의 유도는 다음과 같이 진행된다.[^11][^12] 편의상, 이하에서 D 아래 첨자를 생략하여 \hat{f}!(x;D) = \hat{f}!(x)로 표기한다.

모델의 평균 제곱 오차를 다음과 같이 쓰자:

이 방정식의 두 번째 항이 0임을 보일 수 있다:

또한, 이 방정식의 세 번째 항은 \varepsilon의 분산인 \sigma^2에 다름 아니다.

이제 나머지 항을 전개하자:

다음을 보인다:

이 마지막 등식 계열은 f(x)가 확률 변수가 아니라 x의 고정된 결정론적 함수라는 사실에서 비롯된다. 따라서 \operatorname\mathbb{E}\left[f(x)\right] = f(x)이다. 마찬가지로 \operatorname\mathbb{E}\left[ f(x)^2 \right] = f(x)^2이고, \operatorname\mathbb{E} \left[ f(x) , \operatorname\mathbb{E}[\hat{f}!(x)] \right] = f(x) , \operatorname\mathbb{E} \left[ \operatorname\mathbb{E}[\hat{f}!(x)] \right] = f(x) \operatorname\mathbb{E}[\hat{f}!(x)]이다. 같은 논리를 사용하여 두 번째 항을 전개하면 0임을 보일 수 있다:

최종적으로, 유도한 결과를 원래 방정식에 대입하고 각 항을 식별한다:

마지막으로, MSE 손실 함수(또는 음의 로그 우도)는 x\sim P에 대해 기댓값을 취하여 얻는다: \text{MSE} = \operatorname\mathbb{E}_x \left[ \text{MSE}(x) \right] = \operatorname\mathbb{E}_x \left{\operatorname{Bias}_D!\left[\hat{f}!(x;D)\right]^2 + \operatorname{Var}_D\left[\hat{f}!(x;D)\right]\right} + \sigma^2.

접근 방법

차원 축소와 특성 선택은 모델을 단순화하여 분산을 줄일 수 있다. 마찬가지로, 더 큰 훈련 세트는 분산을 줄이는 경향이 있다. 특성(예측 변수)을 추가하면 추가적인 분산이 도입되는 대가로 편향이 줄어드는 경향이 있다. 학습 알고리즘에는 일반적으로 편향과 분산을 제어하는 조정 가능한 매개변수가 있다. 예를 들어,

선형 및 일반화 선형 모델은 정규화를 통해 편향을 증가시키는 대가로 분산을 줄일 수 있다.[^13]
인공 신경망에서는 은닉 유닛의 수가 증가함에 따라 분산은 증가하고 편향은 감소하지만,[^7] 이 고전적 가정은 최근 논쟁의 대상이 되고 있다.[^4] 일반화 선형 모델에서와 마찬가지로, 일반적으로 정규화가 적용된다.
k-최근접 이웃 모델에서는 높은 값이 높은 편향과 낮은 분산을 초래한다(아래 참조).
사례 기반 학습에서는 원형과 예시의 혼합을 변화시켜 정규화를 달성할 수 있다.[^14]
결정 트리에서는 트리의 깊이가 분산을 결정한다. 결정 트리는 일반적으로 분산을 제어하기 위해 가지치기를 한다.[^5]

트레이드오프를 해결하는 한 가지 방법은 혼합 모델과 앙상블 학습을 사용하는 것이다.[^15][^16] 예를 들어, 부스팅은 많은 "약한"(높은 편향) 모델을 결합하여 개별 모델보다 낮은 편향을 가진 앙상블을 만들고, 배깅은 "강한" 학습기를 결합하여 분산을 줄인다.

교차 검증(통계학)과 같은 모델 검증 방법을 사용하여 트레이드오프를 최적화하도록 모델을 조정할 수 있다.

k-최근접 이웃

-최근접 이웃 회귀의 경우, 고정된 훈련 세트의 가능한 레이블링에 대해 기댓값을 취할 때, 편향-분산 분해를 매개변수 와 관련짓는 닫힌 형태의 표현식이 존재한다:[^6]

여기서 N_1(x), \dots, N_k(x)는 훈련 세트에서 의 개 최근접 이웃이다. 편향(첫 번째 항)은 의 단조 증가 함수이며, 분산(두 번째 항)은 가 증가함에 따라 감소한다. 실제로, "합리적인 가정" 하에서 최근접 이웃(1-NN) 추정량의 편향은 훈련 세트의 크기가 무한대에 접근함에 따라 완전히 사라진다.[^7]

응용

회귀 분석에서

편향-분산 분해는 LASSO 및 릿지 회귀와 같은 회귀 정규화 방법의 개념적 기초를 형성한다. 정규화 방법은 회귀 솔루션에 편향을 도입하여 보통최소제곱법(OLS) 솔루션에 비해 분산을 상당히 줄일 수 있다. OLS 솔루션이 비편향 회귀 추정값을 제공하지만, 정규화 기법이 생성하는 낮은 분산 솔루션은 더 우수한 MSE 성능을 제공한다.

분류에서

편향-분산 분해는 원래 최소제곱 회귀를 위해 공식화되었다. 0-1 손실(오분류율) 하의 분류 문제의 경우, 분산 항이 대상 레이블에 의존하게 된다는 단서가 있지만 유사한 분해를 찾는 것이 가능하다.[^17][^18] 대안적으로, 분류 문제를 확률적 분류로 표현할 수 있다면, 기대 교차 엔트로피를 분해하여 동일한 의미론을 가지지만 다른 형태를 취하는 편향 및 분산 항을 얻을 수 있다.

훈련 데이터가 증가함에 따라 학습된 모델의 분산이 감소하는 경향이 있으며, 따라서 훈련 데이터의 양이 증가할수록 편향이 적은 모델을 학습하는 방법에 의해 오차가 최소화되고, 반대로 훈련 데이터의 양이 적을수록 분산을 최소화하는 것이 더욱 중요해진다는 주장이 있다.[^19]

강화 학습에서

편향-분산 분해가 강화 학습에 직접 적용되지는 않지만, 유사한 트레이드오프가 일반화를 특징짓을 수 있다. 에이전트가 환경에 대한 제한된 정보를 가질 때, RL 알고리즘의 차최적성은 두 항의 합으로 분해될 수 있다: 점근적 편향과 관련된 항과 과적합으로 인한 항이다. 점근적 편향은 (데이터의 양과 무관하게) 학습 알고리즘과 직접적으로 관련되며, 과적합 항은 데이터의 양이 제한되어 있다는 사실에서 비롯된다.[^20]

몬테카를로 방법에서

전통적인 몬테카를로 방법에서는 편향이 일반적으로 0이지만, 마르코프 연쇄 몬테카를로와 같은 현대적 접근법은 기껏해야 점근적으로만 비편향이다.[^21] 수렴 진단을 사용하여 번인(burn-in) 제거를 통해 편향을 제어할 수 있지만, 제한된 계산 예산으로 인해 편향-분산 트레이드오프가 발생하며,[^22] 이는 분산과 전체 추정 오차를 극적으로 줄일 수 있다면 제어된 편향을 수용하는 다양한 접근법으로 이어진다.[^23][^24][^25]

인간 학습에서

기계 학습의 맥락에서 널리 논의되지만, 편향-분산 딜레마는 인간 인지의 맥락에서도 검토되어 왔으며, 특히 게르트 기게렌처와 동료들이 학습된 휴리스틱의 맥락에서 주목할 만한 연구를 수행하였다. 그들은 (아래 참고문헌 참조) 인간의 뇌가 경험에 의해 제공되는 전형적으로 희소하고 특성이 잘 파악되지 않은 훈련 세트의 경우, 높은 편향/낮은 분산 휴리스틱을 채택함으로써 딜레마를 해결한다고 주장하였다. 이는 영편향 접근법이 새로운 상황에 대한 일반화 능력이 떨어지며, 세계의 참된 상태에 대한 정확한 지식을 불합리하게 전제한다는 사실을 반영한다. 결과적으로 생성된 휴리스틱은 비교적 단순하지만, 더 다양한 상황에서 더 나은 추론을 산출한다.[^8]

Geman 등[^7]은 편향-분산 딜레마가 일반적 객체 인식과 같은 능력이 처음부터 학습될 수 없으며, 나중에 경험에 의해 조율되는 일정 수준의 "하드 와이어링"이 필요함을 시사한다고 주장한다. 이는 모델 프리 추론 접근법이 높은 분산을 피하려면 비현실적으로 큰 훈련 세트를 필요로 하기 때문이다.

같이 보기

정확도와 정밀도
추정량의 편향
이중 하강
가우스-마르코프 정리
하이퍼파라미터 최적화
전분산의 법칙
최소분산 비편향 추정량
모델 선택
회귀 모델 검증
지도 학습
크라메르-라오 하한
예측 구간

외부 링크

MLU-Explain: 편향-분산 트레이드오프 — LOESS 회귀와 K-최근접 이웃에서의 편향-분산 트레이드오프에 대한 인터랙티브 시각화.

참고 문헌

[^1]: Kohavi, Ron. 영-일 손실 함수에 대한 편향 플러스 분산 분해. (1996)

[^2]: Luxburg, Ulrike V.. 통계적 학습 이론: 모델, 개념, 결과. (2011)

[^3]: Neal, Brady. 편향-분산 트레이드오프에 대하여: 교과서는 업데이트가 필요하다. (2019)

[^4]: Neal, Brady. 신경망에서의 편향-분산 트레이드오프에 대한 현대적 관점. (2018)

[^5]: James, Gareth. 통계적 학습 입문. Springer

[^6]: Hastie, Trevor. 통계적 학습의 기초

[^7]: Geman, Stuart. 신경망과 편향/분산 딜레마

[^8]: Gigerenzer, Gerd. 호모 휴리스티쿠스: 편향된 마음이 더 나은 추론을 하는 이유

[^9]: Neal, Brady. 신경망에서의 편향-분산 트레이드오프에 대한 현대적 관점. (2019)

[^10]: Vapnik, Vladimir. 통계적 학습 이론의 본질. Springer-Verlag. (2000)

[^11]: Vijayakumar, Sethu. 편향-분산 트레이드오프. [[에든버러 대학교]]

[^12]: Shakhnarovich, Greg. 선형 회귀에서의 편향-분산 분해 유도에 관한 노트

[^13]: Belsley, David. 조건 진단: 회귀에서의 공선성과 약한 데이터. Wiley

[^14]: Gagliardi, Francesco. 의료 데이터베이스에 적용된 인스턴스 기반 분류기: 진단과 지식 추출. (2011년 5월)

[^15]: Ting, Jo-Anne. 기계 학습 백과사전. Springer

[^16]: Fortmann-Roe, Scott. 편향-분산 트레이드오프 이해하기

[^17]: Domingos, Pedro. 통합 편향-분산 분해

[^18]: Valentini, Giorgio. SVM 기반 앙상블 방법 개발을 위한 서포트 벡터 머신의 편향-분산 분석

[^19]: Brain, Damian. 대규모 데이터셋의 분류 학습에서 낮은 편향 알고리즘의 필요성

[^20]: Francois-Lavet, Vincent. 부분 관측성을 가진 배치 강화 학습에서의 과적합과 점근적 편향에 대하여

[^21]: Cite conference last1 = Zlochin first1 = M. last2 = Baram first2 = Y. title = 몬테카를로 방법의 편향-분산 딜레마 editor1-last = Dorffner editor1-first = G. edi

[^22]: Cite journal last1 = South first1 = Leah F. last2 = Riabiz first2 = Marina last3 = Teymur first3 = Onur last4 = Oates first4 = Chris J. title = MCMC의 후처리 jou

[^23]: Cite journal last1 = Nemeth first1 = C. last2 = Fearnhead first2 = P. title = 확률적 경사 마르코프 연쇄 몬테카를로 journal = Journal of the American Statistical Association

[^24]: Cite journal last1 = Vazquez first1 = M.A. last2 = Míguez first2 = J. title = 변환된 가중치를 이용한 중요도 샘플링 journal = Electronics Letters date = 2017 volume = 53

[^25]: Cite conference last1 = Korba first1 = A. last2 = Portier first2 = F. title = 적응적 중요도 샘플링과 미러 하강법의 만남: 편향-분산 트레이드오프 book-title = Proceedings of