일반화 선형 모형
통계학에서 일반화 선형 모형(GLM, Generalized Linear Model)은 일반 선형 회귀를 유연하게 일반화한 것이다. GLM은 연결 함수를 통해 선형 모형을 반응 변수와 연결하고, 각 측정값의 분산 크기를 예측값의 함수로 허용함으로써 선형 회귀를 일반화한다.
일반화 선형 모형은 존 넬더(John Nelder)와 로버트 웨더번(Robert Wedderburn)이 선형 회귀, 로지스틱 회귀, 포아송 회귀 등 다양한 통계 모형을 통합하는 방법으로 정립하였다.[^1] 이들은 모형 매개변수의 최대우도추정(MLE)을 위해 반복적으로 재가중되는 최소제곱법을 제안하였다. MLE는 여전히 널리 사용되며 많은 통계 컴퓨팅 패키지에서 기본 방법으로 채택되고 있다. 베이즈 회귀 및 분산 안정화 반응에 대한 최소제곱 적합 등 다른 접근법도 개발되었다.
직관
일반 선형 회귀는 주어진 미지의 양(관측값들(예측 변수)의 선형 결합으로서 반응 변수라 불리는 확률 변수)의 기대값을 예측한다. 이는 예측 변수의 일정한 변화가 반응 변수의 일정한 변화를 이끈다는 것을 의미한다(즉, 선형 반응 모형). 이는 반응 변수가 양방향으로 거의 무한히 변할 수 있는 경우, 또는 더 일반적으로 예측 변수의 변동에 비해 상대적으로 작은 범위에서만 변하는 양(예: 사람의 키)에 적합하다.
그러나 이러한 가정은 일부 유형의 반응 변수에는 적합하지 않다. 예를 들어, 반응 변수가 항상 양수이면서 넓은 범위에 걸쳐 변하는 경우, 일정한 입력 변화는 일정하게 변하는 것이 아니라 기하급수적(즉, 지수적)으로 변하는 출력 변화를 이끈다. 예를 들어, 어떤 선형 예측 모형이 일부 데이터(아마도 주로 대형 해변에서 수집된 데이터)를 학습하여 기온이 10도 하락하면 해변 방문객이 1,000명 줄어든다고 예측한다고 가정하자. 이 모형은 크기가 다른 해변에 대해서는 잘 일반화되지 않을 가능성이 높다. 더 구체적으로, 문제는 이 모형을 사용하여 평소 50명의 해변 방문객을 받는 해변에서 기온이 10도 하락했을 때의 새로운 방문객 수를 예측하면, 불가능한 방문객 수인 −950을 예측하게 된다는 것이다. 논리적으로, 더 현실적인 모형은 대신 해변 방문객의 일정한 증가율을 예측할 것이다(예: 10도 상승은 해변 방문객의 두 배 증가를, 10도 하락은 방문객의 절반 감소를 이끈다). 이러한 모형을 지수 반응 모형(또는 로그 선형 모형이라 하는데, 반응의 로그가 선형적으로 변할 것으로 예측되기 때문이다)이라 한다.
마찬가지로, 예/아니오 선택(베르누이 변수)의 확률을 예측하는 모형은 확률이 양쪽 끝에서 제한되어 있기 때문에(0과 1 사이여야 하므로) 선형 반응 모형으로는 더욱 부적합하다. 예를 들어, 기온의 함수로서 특정 사람이 해변에 갈 가능성을 예측하는 모형을 상상해 보자. 합리적인 모형은, 예를 들어 10도의 변화가 해변에 갈 가능성을 두 배 높이거나 낮춘다고 예측할 수 있다. 그러나 확률의 관점에서 "두 배 더 가능성이 높다"는 것은 무엇을 의미하는가? 이것은 문자 그대로 확률값을 두 배로 한다는 의미일 수 없다(예: 50%가 100%가 되고, 75%가 150%가 되는 등). 오히려 두 배가 되는 것은 *승산(odds)*이다: 2:1 승산에서 4:1 승산으로, 8:1 승산으로 등등. 이러한 모형을 로그 승산 또는 로지스틱 모형이라 한다.
일반화 선형 모형은 반응 변수가 (단순히 정규 분포가 아닌) 임의의 분포를 가질 수 있도록 하고, 반응 변수의 임의의 함수(연결 함수)가 (반응 자체가 선형적으로 변해야 한다고 가정하는 대신) 예측 변수에 대해 선형적으로 변하도록 허용함으로써 이 모든 상황을 포괄한다. 예를 들어, 위의 해변 방문객 수 예측 사례는 일반적으로 푸아송 분포와 로그 연결로 모형화되며, 해변 방문 확률 예측 사례는 일반적으로 베르누이 분포(또는 문제가 정확히 어떻게 구성되느냐에 따라 이항 분포)와 로그 승산(또는 로짓) 연결 함수로 모형화된다.
개요
일반화 선형 모형(GLM)에서 종속 변수의 각 결과 Y는 지수족에 속하는 특정 분포에서 생성된 것으로 가정한다. 지수족은 정규 분포, 이항 분포, 푸아송 분포, 감마 분포 등을 포함하는 큰 확률 분포 부류이다. 분포의 조건부 평균 μ 는 독립 변수 X를 통해 다음과 같이 결정된다:
\operatorname{E}(\mathbf{Y}\mid\mathbf{X}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta}),
여기서 E(Y | X)는 X에 대한 Y의 조건부 기댓값이고, Xβ** 는 미지의 모수 β 의 선형 결합인 선형 예측자이며, g는 연결 함수이다.
이 프레임워크에서 분산은 일반적으로 평균의 함수 V로 표현된다:
\operatorname{Var}(\mathbf{Y}\mid\mathbf{X}) = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})).
V가 지수족 분포로부터 도출되면 편리하지만, 단순히 분산이 예측값의 함수이기만 하면 되는 경우도 있다.
미지의 모수 β 는 일반적으로 최대 우도법, 최대 준우도법, 또는 베이즈 기법으로 추정된다.
모델 구성 요소
GLM은 세 가지 요소로 구성된다:
- 지수족 확률 분포 중에서 Y 를 모델링하기 위한 특정 분포,
- 선형 예측자 \eta = X \beta, 그리고
- \operatorname{E}(Y \mid X) = \mu = g^{-1}(\eta)를 만족하는 연결 함수 g.
확률 분포
과분산 지수족(또는 분산을 갖는 지수족)은 지수족과 지수 분산 모형의 일반화로, \boldsymbol\theta와 \tau로 매개변수화되며, 밀도 함수 f(이산 분포의 경우 확률 질량 함수)가 다음과 같은 형태로 표현될 수 있는 확률 분포의 족을 포함한다: f_Y(\mathbf{y} \mid \boldsymbol\theta, \tau) = h(\mathbf{y},\tau) \exp \left(\frac{\mathbf{b}(\boldsymbol\theta)^{\rm T}\mathbf{T}(\mathbf{y}) - A(\boldsymbol\theta)} {d(\tau)} \right). ,!
분산 모수 \tau는 일반적으로 알려져 있으며, 보통 분포의 분산과 관련된다. 함수 h(\mathbf{y},\tau), \mathbf{b}(\boldsymbol\theta), \mathbf{T}(\mathbf{y}), A(\boldsymbol\theta), d(\tau)는 알려져 있다. 정규 분포, 지수 분포, 감마 분포, 포아송 분포, 베르누이 분포, 그리고 (시행 횟수가 고정된 경우) 이항 분포, 다항 분포, 음이항 분포를 포함한 많은 일반적인 분포가 이 족에 속한다.
스칼라 \mathbf{y}와 \boldsymbol\theta(이 경우 각각 y와 \theta로 표기)에 대해, 이는 다음으로 축소된다: f_Y(y \mid \theta, \tau) = h(y,\tau) \exp \left(\frac{b(\theta)T(y) - A(\theta)}{d(\tau)} \right). ,!
\boldsymbol\theta는 분포의 평균과 관련된다. \mathbf{b}(\boldsymbol\theta)가 항등 함수이면, 그 분포는 표준형(또는 자연형)이라고 한다. 어떤 분포든 \boldsymbol\theta를 \boldsymbol\theta'로 다시 쓰고 변환 \boldsymbol\theta = \mathbf{b}(\boldsymbol\theta')를 적용하면 표준형으로 변환할 수 있다. \mathbf{b}(\boldsymbol\theta')가 일대일 함수가 아니더라도 새로운 매개변수화에 대해 A(\boldsymbol\theta)를 항상 변환할 수 있다; 지수족 문서의 설명을 참조하라.
추가로 \mathbf{T}(\mathbf{y})와 \mathbf{b}(\boldsymbol\theta)가 항등 함수이면, \boldsymbol\theta는 표준 모수(또는 자연 모수)라 불리며, 평균과 다음의 관계를 갖는다: \boldsymbol\mu = \operatorname{E}(\mathbf{y}) = \nabla_{\boldsymbol{\theta}} A(\boldsymbol\theta). ,!
스칼라 \mathbf{y}와 \boldsymbol\theta에 대해, 이는 다음으로 축소된다: \mu = \operatorname{E}(y) = A'(\theta).
이 시나리오에서, 분포의 분산은 다음과 같이 나타낼 수 있다:[^2] \operatorname{Var}(\mathbf{y}) = \nabla^2_{\boldsymbol{\theta}} A(\boldsymbol\theta)d(\tau). ,!
스칼라 \mathbf{y}와 \boldsymbol\theta에 대해, 이는 다음으로 축소된다: \operatorname{Var}(y) = A''(\theta) d(\tau). ,!
선형 예측자
선형 예측자는 독립 변수에 대한 정보를 모형에 통합하는 양이다. 기호 η(그리스 문자 "에타")는 선형 예측자를 나타낸다. 이는 연결 함수를 통해 데이터의 기댓값과 관련된다.
*η*는 미지의 모수 β 의 선형 결합(따라서 "선형")으로 표현된다. 선형 결합의 계수는 독립 변수의 행렬 X로 나타낸다. *η*는 따라서 다음과 같이 표현할 수 있다:
\eta = \mathbf{X}\boldsymbol{\beta}.,
연결 함수
연결 함수는 선형 예측자와 분포 함수의 평균 사이의 관계를 제공한다. 널리 사용되는 연결 함수가 많으며, 그 선택은 여러 고려 사항에 의해 결정된다. 반응 변수의 밀도 함수의 지수로부터 유도되는, 잘 정의된 표준 연결 함수가 항상 존재한다. 그러나 어떤 경우에는 연결 함수의 정의역을 분포 함수의 평균의 치역에 맞추거나, 알고리즘적 목적으로 비표준 연결 함수를 사용하는 것이 타당하다. 예를 들어 베이즈 프로빗 회귀가 그러하다.
표준 모수 \theta를 갖는 분포 함수를 사용할 때, 표준 연결 함수는 \theta를 \mu로 표현하는 함수, 즉 \theta = g(\mu)이다. 가장 일반적인 분포들에서 평균 \mu는 분포의 밀도 함수의 표준형에서 모수 중 하나이며, 이때 g(\mu)는 밀도 함수를 표준형으로 사상하는 위에서 정의된 함수이다. 표준 연결 함수를 사용할 때, g(\mu) = \theta = \mathbf{X}\boldsymbol{\beta}이며, 이는 \mathbf{X}^{\rm T} \mathbf{Y}가 \boldsymbol{\beta}의 충분통계량이 되도록 한다.
다음은 일반적으로 사용되는 여러 지수족 분포와 전형적인 사용 데이터, 그리고 표준 연결 함수와 그 역함수(여기서는 평균 함수라고도 함)를 나타낸 표이다.
{| class="wikitable" |+ 일반적인 분포와 전형적인 용도 및 표준 연결 함수 ! 분포 !! 분포의 지지 !! 전형적인 용도 !! 연결 이름 !! 연결 함수, \mathbf{X}\boldsymbol{\beta}=g(\mu),! !! 평균 함수 |- | 정규 분포 | rowspan="2" |실수: (-\infty,+\infty) || rowspan="2" |선형 반응 데이터 || rowspan="2" | 항등 | rowspan="2" |\mathbf{X}\boldsymbol{\beta}=\mu,! || rowspan="2" | \mu=\mathbf{X}\boldsymbol{\beta},! |- | 라플라스 분포 |- | 지수 분포 | rowspan="2" | 실수: (0,+\infty) || rowspan="2" | 지수 반응 데이터, 척도 모수 | rowspan="2" | 음의 역수 | rowspan="2" | \mathbf{X}\boldsymbol{\beta}=-\mu^{-1},! | rowspan="2" | \mu=-(\mathbf{X}\boldsymbol{\beta})^{-1},! |- | 감마 분포 |- | 역가우스 분포 | 실수: (0, +\infty) || || 역제곱 || \mathbf{X}\boldsymbol{\beta}=\mu^{-2},! || \mu=(\mathbf{X}\boldsymbol{\beta})^{-1/2},! |- | 포아송 분포 | 정수: 0,1,2,\ldots || 고정된 시간/공간에서의 발생 횟수 || 로그 || \mathbf{X}\boldsymbol{\beta} = \ln(\mu) ,! || \mu=\exp (\mathbf{X}\boldsymbol{\beta}) ,! |- | 베르누이 분포 | 정수: {0,1} || 단일 예/아니오 사건의 결과 | rowspan="5" | 로짓 | \mathbf{X}\boldsymbol{\beta}=\ln \left(\frac \mu {1-\mu}\right) ,! | rowspan="5" | \mu=\frac{\exp(\mathbf{X}\boldsymbol{\beta})}{1 + \exp(\mathbf{X}\boldsymbol{\beta})} = \frac 1 {1 + \exp(-\mathbf{X} \boldsymbol{\beta})} ,! |- | 이항 분포 | 정수: 0,1,\ldots,N || N번의 예/아니오 사건 중 "예"의 발생 횟수 |\mathbf{X}\boldsymbol{\beta}=\ln \left(\frac \mu {n-\mu}\right) ,! |- | rowspan=2| 범주형 분포 | 정수: [0,K)|| rowspan=2| 단일 K-방향 사건의 결과 | rowspan="3" |\mathbf{X}\boldsymbol{\beta}=\ln \left(\frac \mu {1-\mu}\right) ,! |- | 정수의 K-벡터: [0,1], 벡터에서 정확히 하나의 원소만 값 1을 가짐 |- | 다항 분포 | 정수의 K-벡터: [0,N] || 총 N번의 K-방향 사건 중 각 유형(1, ..., K)의 발생 횟수 |}
지수 분포와 감마 분포의 경우, 표준 연결 함수의 정의역이 평균의 허용 범위와 같지 않다. 특히, 선형 예측자가 양수일 수 있으며, 이는 불가능한 음의 평균을 줄 수 있다. 우도를 최대화할 때 이를 피하기 위한 주의가 필요하다. 대안은 비표준 연결 함수를 사용하는 것이다.
베르누이, 이항, 범주형 및 다항 분포의 경우, 분포의 지지가 예측되는 모수와 같은 유형의 데이터가 아니다. 이 모든 경우에서 예측되는 모수는 하나 이상의 확률, 즉 [0,1] 범위의 실수이다. 결과적인 모형은 로지스틱 회귀(또는 이진값이 아닌 K-방향 값을 예측하는 경우 다항 로지스틱 회귀)로 알려져 있다.
베르누이 분포와 이항 분포의 경우, 모수는 단일 확률로, 단일 사건의 발생 가능성을 나타낸다. 베르누이 분포는 단일 결과가 항상 0 또는 1이지만, 기댓값은 실수값 확률, 즉 "예"(또는 1) 결과의 발생 확률이 되므로, 일반화 선형 모형의 기본 조건을 여전히 만족한다. 마찬가지로, 이항 분포에서 기댓값은 Np이며, 즉 "예" 결과의 기대 비율은 예측할 확률이 된다.
범주형 분포와 다항 분포의 경우, 예측할 모수는 확률의 K-벡터이며, 모든 확률의 합이 1이어야 한다는 추가 제약이 있다. 각 확률은 K개의 가능한 값 중 하나가 발생할 가능성을 나타낸다. 다항 분포와 범주형 분포의 벡터 형태에서, 벡터 원소의 기댓값은 이항 분포 및 베르누이 분포와 유사하게 예측 확률과 관련될 수 있다.
적합
최대우도법
최대우도 추정값은 반복적으로 재가중된 최소제곱 알고리즘 또는 다음과 같은 형태의 갱신을 사용하는 뉴턴 방법으로 구할 수 있다: \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{J}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}),
여기서 \mathcal{J}(\boldsymbol\beta^{(t)})는 관측 정보 행렬(헤시안 행렬의 음수)이고 u(\boldsymbol\beta^{(t)})는 스코어 함수이다. 또는 피셔 스코어링 방법을 사용할 수 있다: \boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} + \mathcal{I}^{-1}(\boldsymbol\beta^{(t)}) u(\boldsymbol\beta^{(t)}),
여기서 \mathcal{I}(\boldsymbol\beta^{(t)})는 피셔 정보 행렬이다. 정준 연결 함수를 사용하는 경우 두 방법은 동일하다는 점에 유의한다.
베이즈 방법
일반적으로 사후 분포는 닫힌 형태로 구할 수 없으므로 근사해야 하며, 보통 라플라스 근사 또는 깁스 표본추출과 같은 마르코프 연쇄 몬테카를로 방법의 일종을 사용한다.
예시
일반 선형 모형
혼동을 일으킬 수 있는 부분은 일반화 선형 모형(generalized linear model)과 일반 선형 모형(general linear model)이라는 두 가지 광범위한 통계 모형 간의 구별에 관한 것이다. 공동 창시자인 존 넬더(John Nelder)는 이 용어에 대해 유감을 표한 바 있다.[^3]
일반 선형 모형은 항등 연결 함수와 정규 분포를 따르는 반응 변수를 가진 일반화 선형 모형의 특수한 경우로 볼 수 있다. 관심 있는 대부분의 정확한 결과는 일반 선형 모형에서만 얻어지므로, 일반 선형 모형은 다소 더 긴 역사적 발전을 거쳐 왔다. 비항등 연결 함수를 사용하는 일반화 선형 모형에 대한 결과는 점근적이다(대표본에서 잘 작동하는 경향이 있다).
선형 회귀
일반화 선형 모형의 간단하지만 매우 중요한 예시(동시에 일반 선형 모형의 예시이기도 한)는 선형 회귀이다. 선형 회귀에서 최소제곱 추정량의 사용은 가우스-마르코프 정리에 의해 정당화되며, 이 정리는 분포가 정규 분포임을 가정하지 않는다.
그러나 일반화 선형 모형의 관점에서는 분포 함수가 상수 분산을 가진 정규 분포이고 연결 함수가 항등 함수라고 가정하는 것이 유용하며, 분산이 알려진 경우 이것이 정준 연결 함수이다. 이러한 가정하에서 최소제곱 추정량은 최대우도 모수 추정치로 얻어진다.
정규 분포의 경우, 일반화 선형 모형은 최대우도 추정치에 대한 닫힌 형태의 표현식을 가지며, 이는 편리하다. 대부분의 다른 GLM은 닫힌 형태의 추정치를 갖지 않는다.
이항 데이터
반응 데이터 Y가 이항(0과 1의 값만 취하는)인 경우, 분포 함수는 일반적으로 베르누이 분포로 선택되며, μi의 해석은 Yi가 1의 값을 취할 확률 p가 된다.
이항 함수에 대해 널리 사용되는 몇 가지 연결 함수가 있다.
로짓 연결 함수
가장 전형적인 연결 함수는 정준 로짓 연결 함수이다:
g(p) = \operatorname{logit} p = \ln \left( { p \over 1-p } \right).
이 설정을 사용하는 GLM이 로지스틱 회귀 모형(또는 로짓 모형)이다.
누적 분포 함수의 역함수로서 널리 사용되는 프로빗 연결 함수
대안적으로, 임의의 연속 누적 분포 함수(CDF)의 역함수를 연결 함수로 사용할 수 있는데, 이는 CDF의 치역이 [0,1]로서 이항 평균의 범위와 같기 때문이다. 정규 CDF \Phi는 널리 사용되는 선택이며 프로빗 모형을 산출한다. 그 연결 함수는 다음과 같다:
g(p) = \Phi^{-1}(p).,!
프로빗 모형을 사용하는 이유는, 정규 CDF에 대한 입력 변수의 상수 스케일링(모든 모수의 동등한 스케일링을 통해 흡수될 수 있는)이 로짓 함수와 실질적으로 동일한 함수를 산출하지만, 일부 상황에서는 프로빗 모형이 로짓 모형보다 더 다루기 쉽기 때문이다. (모수에 정규 분포 사전 분포를 부여하는 베이즈 설정에서, 정규 사전 분포와 정규 CDF 연결 함수 간의 관계로 인해 프로빗 모형은 깁스 샘플링을 사용하여 계산할 수 있지만, 로짓 모형은 일반적으로 그렇게 할 수 없다.)
상보 로그-로그 (cloglog)
상보 로그-로그 함수도 사용될 수 있다: g(p) = \log(-\log(1-p)). 이 연결 함수는 비대칭이며 로짓 및 프로빗 연결 함수와 다른 결과를 산출하는 경우가 많다.[^4] cloglog 모형은 사건(예: 결함)이 0건이거나 1건 이상 관측되고, 사건의 수가 푸아송 분포를 따른다고 가정하는 응용에 해당한다.[^5] 푸아송 가정은 다음을 의미한다:
\Pr(0) = \exp(-\mu),
여기서 *μ*는 기대 사건 수를 나타내는 양수이다. p가 최소 하나의 사건이 있는 관측값의 비율을 나타내면, 그 여사건은
1-p = \Pr(0) = \exp(-\mu),
이고 따라서
-\log(1-p) = \mu.
선형 모형은 반응 변수가 전체 실수 직선에 걸쳐 값을 취할 것을 요구한다. μ는 양수여야 하므로, 로그를 취하여 이를 강제할 수 있으며, log(μ)를 선형 모형으로 놓는다. 이는 "cloglog" 변환을 산출한다:
\log(-\log(1-p)) = \log(\mu).
항등 연결 함수
항등 연결 함수 g(p) = p는 이항 데이터에 대해 선형 확률 모형을 산출하기 위해 때때로 사용되기도 한다. 그러나 항등 연결 함수는 0보다 작거나 1보다 큰 무의미한 "확률"을 예측할 수 있다. 이는 cloglog, 프로빗 또는 로짓(또는 임의의 역누적 분포 함수)과 같은 변환을 사용하여 방지할 수 있다. 항등 연결 함수의 주된 장점은 선형 수학을 사용하여 추정할 수 있다는 것이며, 다른 표준 연결 함수들은 p = 0.5 근처에서 항등 연결 함수와 거의 선형적으로 일치한다.
분산 함수
"" 데이터에 대한 분산 함수는 다음과 같다:
\operatorname{Var}(Y_i)= \tau\mu_i (1-\mu_i),!
여기서 산포 모수 *τ*는 이항 분포에 대해 정확히 1이다. 실제로 표준 이항 우도는 *τ*를 생략한다. 이것이 포함될 때, 모형은 "준이항"이라 하고, 수정된 우도는 준우도라 불리는데, 이는 일반적으로 어떤 실제 확률 분포 계열에도 대응하는 우도가 아니기 때문이다. *τ*가 1을 초과하면, 모형은 과산포를 나타낸다고 한다.
다항 회귀
이항의 경우는 반응 변수로 다항 분포를 허용하도록 쉽게 확장될 수 있다(또한 총합이 제약된 도수에 대한 일반화 선형 모형이기도 하다). 이를 수행하는 데는 보통 두 가지 방법이 있다:
순서형 반응
반응 변수가 순서형이면, 다음 형태의 모형 함수를 적합할 수 있다:
g(\mu_m) = \eta_m = \beta_0 + X_1 \beta_1 + \cdots + X_p \beta_p + \gamma_2 + \cdots + \gamma_m = \eta_1 + \gamma_2 + \cdots + \gamma_m \text{ where } \mu_m = \operatorname{P}(Y \leq m). ,
m > 2인 경우. 서로 다른 연결 함수 g는 비례 오즈 모형이나 순서 프로빗 모형과 같은 순서형 회귀 모형으로 이어진다.
비순서형 반응
반응 변수가 명목 측정이거나, 데이터가 순서형 모형의 가정을 충족하지 않는 경우, 다음 형태의 모형을 적합할 수 있다:
g(\mu_m) = \eta_m = \beta_{m,0} + X_1 \beta_{m,1} + \cdots + X_p \beta_{m,p} \text{ where } \mu_m = \mathrm{P}(Y = m \mid Y \in {1,m} ). ,
m > 2인 경우. 서로 다른 연결 함수 g는 다항 로짓 또는 다항 프로빗 모형으로 이어진다. 이들은 순서형 반응 모형보다 더 일반적이며, 더 많은 모수가 추정된다.
도수 데이터
일반화 선형 모형의 또 다른 예시로는 푸아송 분포를 사용하여 도수 데이터를 모형화하는 푸아송 회귀가 있다. 연결 함수는 전형적으로 정준 연결 함수인 로그 함수이다.
분산 함수는 평균에 비례한다:
\operatorname{var}(Y_i) = \tau\mu_i,,
여기서 산포 모수 *τ*는 전형적으로 정확히 1로 고정된다. 그렇지 않은 경우, 결과적인 준우도 모형은 흔히 과산포 푸아송 또는 준푸아송이라 불린다.
확장
상관 또는 군집 데이터
표준 GLM은 관측값들이 비상관이라고 가정한다. 종단 연구나 군집 설계에서 발생하는 것처럼 관측값 간의 상관을 허용하기 위한 확장이 개발되었다:
- 일반화 추정 방정식(GEE)은 상관의 기원에 대한 명시적 확률 모형을 사용하지 않고 관측값 간의 상관을 허용하므로, 명시적 우도가 존재하지 않는다. 이 방법은 상관의 기원을 설명하지 않고도 상관을 허용하기 때문에 확률 효과와 그 분산 자체가 관심 대상이 아닌 경우에 적합하다. 초점은 X의 하나 이상의 구성 요소를 변경했을 때 특정 개인에 대한 효과를 예측할 수 있는 회귀 매개변수보다는, 모집단 전체에 대한 평균 반응("모집단 평균" 효과)을 추정하는 데 있다. GEE는 보통 후버-화이트 표준 오차와 함께 사용된다.[^6][^7]
- 일반화 선형 혼합 모형(GLMM)은 선형 예측자에 확률 효과를 포함시킨 GLM의 확장으로, 상관의 기원을 설명하는 명시적 확률 모형을 제공한다. 그 결과로 얻어지는 "개체 특이적" 매개변수 추정치는 X의 하나 이상의 구성 요소를 변경했을 때 특정 개인에 대한 효과를 추정하는 것이 초점인 경우에 적합하다. GLMM은 다수준 모형 및 혼합 모형이라고도 불린다. 일반적으로 GLMM을 적합하는 것은 GEE를 적합하는 것보다 계산적으로 더 복잡하고 집약적이다.
일반화 가법 모형
일반화 가법 모형(GAM)은 선형 예측자 η가 공변량 X에 대해 선형으로 제한되지 않고 *xi*에 적용된 평활 함수들의 합으로 구성되는 GLM의 또 다른 확장이다: \eta = \beta_0 + f_1(x_1) + f_2(x_2) + \cdots ,!
평활 함수 *fi*는 데이터로부터 추정된다. 일반적으로 이를 위해서는 많은 수의 데이터 포인트가 필요하며 계산 집약적이다.
같이 보기
-
-
-
-
-
-
-
-
-
- (VGLM)
-
-
-
-
-
-
-
-
- 일반화 추정 방정식
인용
참고 문헌
-
-
-
-
더 읽을거리
-
-
-
-
-
-
외부 링크
-
-
각주
[^1]: cite journal last1= Nelder first1 = John author-link = John Nelder first2 = Robert last2 = Wedderburn s2cid = 14154576 author-link2 = Robert Wedderburn (statistician) title = Generalized
[^2]: harvnb McCullagh Nelder 1989 , Chapter 2.
[^3]: Senn, Stephen. John Nelder와의 대화
[^4]: 상보 로그-로그 모형
[^5]: 어떤 연결 함수를 사용할 것인가 — 로짓, 프로빗, 또는 Cloglog?. (2015-08-14)
[^6]: cite journal title = 종단 데이터를 위한 모형: 일반화 추정 방정식 접근법 first1 = Scott L. last1 = Zeger last2 = Liang first2 = Kung-Yee last3 = Albert first3 = Paul S. a
[^7]: cite book last1 = Hardin first1 = James last2 = Hilbe first2 = Joseph author2-link = Joseph Hilbe title = 일반화 추정 방정식 url = https://archive.org/details/generalizedestim0000
관련 인사이트

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.

그 30분을 18년 동안 매일 반복했습니다 — 품질팀장이 본 AI Agent
18년차 품질팀장이 매일 아침 30분씩 반복하던 데이터 분석을 AI Agent가 3분 만에 해냈습니다. 챗봇과는 완전히 다른 물건 — 직접 시스템에 접근해서 데이터를 꺼내고 분석하는 AI의 현장 도입기.

ERP 20년, 나는 왜 AI를 얹기로 했나
ERP 20년차 제조IT본부장의 고백: 3,200만 행의 데이터가 잠들어 있었다. ERP를 바꾸지 않고 AI를 얹자, 일주일 걸리던 불량 분석이 수 초로 줄었다.