신뢰도 함수
신뢰도 함수(** 생존 함수**)는 환자, 장치 또는 기타 관심 대상이 특정 시간을 넘겨 생존할 확률을 나타내는 함수이다.[^1] 생존 함수는 생존자 함수[^2] 또는 신뢰도 함수로도 알려져 있다.[^3] 신뢰도 함수라는 용어는 공학 분야에서 흔히 사용되며, 생존 함수라는 용어는 인간의 사망률을 포함한 더 넓은 범위의 응용 분야에서 사용된다. 생존 함수는 수명의 상보 누적 분포 함수이다. 때때로 상보 누적 분포 함수를 일반적으로 생존 함수라고 부르기도 한다.
정의
수명 T를 고장까지의 시간을 나타내는 연속 확률 변수라 하자. T가 구간 [0,\infty)에서 누적 분포 함수 F(t)와 확률 밀도 함수 f(t)를 가지면, 생존 함수 또는 신뢰도 함수는 다음과 같다:
S(t) = \int_t^\infty f(u) , du = \Pr(T > t) = 1 - F(t) = 1 - \int_0^t f(u) , du
생존 함수의 예시
아래 그래프는 가상의 생존 함수 예시를 보여준다. 가로축은 시간이다. 세로축은 생존 대상자의 비율이다. 그래프는 대상자가 시간 이후에도 생존할 확률을 나타낸다.
예를 들어, 생존 함수 1의 경우, 개월 이상 생존할 확률은 이다. 즉, 대상자의 37%가 2개월 이상 생존한다.
생존 함수 2의 경우, 개월 이상 생존할 확률은 이다. 즉, 대상자의 97%가 2개월 이상 생존한다.
중앙 생존 시간은 생존 함수로부터 결정할 수 있다: 중앙 생존 시간은 생존 함수가 값 과 교차하는 지점이다.[^9] 예를 들어, 생존 함수 2의 경우, 대상자의 50%가 3.72개월 동안 생존한다. 따라서 중앙 생존 시간은 개월이다.
중앙 생존 시간은 그래프만으로 항상 결정할 수 있는 것은 아니다. 예를 들어, 생존 함수 4에서는 대상자의 50% 이상이 관찰 기간인 10개월보다 더 오래 생존한다.
생존 함수는 생존 데이터를 기술하고 표시하는 여러 방법 중 하나이다. 데이터를 표시하는 또 다른 유용한 방법은 대상자의 생존 시간 분포를 보여주는 그래프이다. Olkin,[^4] 426쪽에서 다음과 같은 생존 데이터 예시를 제시하고 있다. 냉방(AC) 시스템의 연속적인 고장 사이의 시간이 기록되었다. 연속적인 고장 사이의 시간(시간 단위) 는 1, 3, 5, 7, 11, 11, 11, 12, 14, 14, 14, 16, 16, 20, 21, 23, 42, 47, 52, 62, 71, 71, 87, 90, 95, 120, 120, 225, 246, 261이다. 평균 고장 간격 시간은 59.6이다. 아래 그림은 고장 간격 시간의 분포를 보여준다. 그래프 아래의 파란색 눈금 표시는 연속적인 AC 고장 사이의 실제 시간이다.
이 예시에서 지수 분포를 나타내는 곡선이 AC 고장 시간 분포 위에 겹쳐져 있다; 지수 분포는 AC 고장 시간의 분포를 근사한다. 이 특정 지수 곡선은 매개변수 람다, 로 지정된다:
고장 시간의 분포는 확률 밀도 함수(PDF)인데, 시간이 임의의 양수 값을 가질 수 있기 때문이다. 수식에서 PDF는 로 표기된다. 시간이 이산적인 값만 가질 수 있는 경우(예: 1일, 2일 등), 고장 시간의 분포를 확률 질량 함수라고 한다. 대부분의 생존 분석 방법은 시간이 임의의 양수 값을 가질 수 있다고 가정하며, 가 PDF이다. 관찰된 AC 고장 간격 시간이 지수 함수를 사용하여 근사되는 경우, 지수 곡선은 AC 고장 시간에 대한 확률 밀도 함수 를 제공한다.
생존 데이터를 표시하는 또 다른 유용한 방법은 각 시점까지의 누적 고장을 보여주는 그래프이다. 이러한 데이터는 각 시점까지의 누적 수 또는 누적 비율로 표시할 수 있다. 아래 그래프는 냉방 시스템의 각 시점에서의 누적 확률(또는 비율)을 보여준다. 검은색 계단식 선은 누적 고장 비율을 나타낸다. 각 계단마다 그래프 하단에 관찰된 고장 시간을 나타내는 파란색 눈금이 있다. 매끄러운 빨간색 선은 관찰된 데이터에 적합된 지수 곡선을 나타낸다.
각 시점까지의 누적 고장 확률 그래프를 누적 분포 함수(CDF)라고 한다. 생존 분석에서 누적 분포 함수는 생존 시간이 특정 시간 이하일 확률을 제공한다.
을 임의의 양수인 생존 시간이라 하자. 특정 시간은 소문자 로 표기한다. 의 누적 분포 함수는 다음과 같다
F(t) = \Pr(T\leq t),
여기서 우변은 확률 변수 가 이하일 확률을 나타낸다. 시간이 임의의 양수 값을 가질 수 있는 경우, 누적 분포 함수 는 확률 밀도 함수 의 적분이다.
냉방 시스템 예시에서, 아래의 CDF 그래프는 데이터에 적합된 지수 곡선을 사용하여 추정한 고장까지의 시간이 100시간 이하일 확률이 임을 보여준다.
고장 시간이 100시간 이하일 확률을 그래프로 표시하는 것의 대안은 고장 시간이 100시간 초과일 확률을 그래프로 표시하는 것이다. 고장 시간이 100시간 초과일 확률은 1에서 고장 시간이 100시간 이하일 확률을 뺀 값이어야 하는데, 전체 확률의 합은 1이어야 하기 때문이다.
이를 정리하면:
\begin{align} \Pr(\text{failure times} > 100 \text{ hours}) &= 1 - \Pr(\text{failure times} \leq 100 \text{ hours}) \ &= 1 - 0.81 = 0.19 \end{align}
이 관계는 모든 고장 시간에 대해 일반화된다:
\Pr(T > t) = 1 - \Pr(T \leq t) = \text{ cumulative distribution function.}
이 관계는 아래 그래프에 나타나 있다. 왼쪽 그래프는 누적 분포 함수, 즉 이다. 오른쪽 그래프는 이다. 오른쪽 그래프는 생존 함수 S(t)이다. S(t) = 1 – CDF라는 사실이 생존 함수의 또 다른 이름이 여사건 누적 분포 함수(상보 누적 분포 함수)인 이유이다.
모수적 생존 함수
에어컨 예시와 같은 일부 경우에서, 생존 시간의 분포는 지수 분포와 같은 함수로 잘 근사될 수 있다. 생존 분석에서는 지수, 와이블, 감마, 정규, 로그정규, 로그로지스틱 분포를 포함한 여러 분포가 일반적으로 사용된다.[^3][^5] 이러한 분포는 모수에 의해 정의된다. 예를 들어, 정규(가우스) 분포는 평균과 표준편차라는 두 개의 모수로 정의된다. 모수에 의해 정의되는 생존 함수를 모수적이라고 한다.
위에 제시된 네 개의 생존 함수 그래프에서, 생존 함수의 형태는 특정 확률 분포에 의해 정의된다: 생존 함수 1은 지수 분포로, 2는 와이블 분포로, 3은 로그로지스틱 분포로, 4는 또 다른 와이블 분포로 정의된다.
지수 생존 함수
지수 생존 분포에서는 개체나 장치의 수명에 관계없이 모든 시간 구간에서 고장 확률이 동일하다. 이 사실은 지수 생존 분포의 "무기억" 성질로 이어진다: 대상의 나이는 다음 시간 구간에서의 고장 확률에 영향을 미치지 않는다. 지수 분포는 부품이 고장 날 때마다 교체되는 시스템의 수명을 모델링하는 데 적합할 수 있다.[^6] 또한 짧은 기간에 걸친 생물체의 생존을 모델링하는 데에도 유용할 수 있다. 그러나 생물체의 전체 수명을 모델링하기에는 적합하지 않을 가능성이 높다.[^7] Efron과 Hastie[^8] (p. 134)가 언급했듯이, "만약 인간의 수명이 지수 분포를 따른다면, 늙은 사람이나 젊은 사람은 없을 것이고, 단지 운이 좋은 사람과 운이 나쁜 사람만 있을 것이다".
와이블 생존 함수
지수 생존 함수의 핵심 가정은 위험률이 일정하다는 것이다. 위에서 든 예시에서 매년 사망하는 남성의 비율은 10%로 일정했으며, 이는 위험률이 일정했음을 의미한다. 그러나 일정한 위험률의 가정이 적절하지 않을 수 있다. 예를 들어, 대부분의 생물체에서 사망 위험은 중년기보다 노년기에 더 높다 – 즉, 위험률이 시간에 따라 증가한다. 유방암과 같은 일부 질병의 경우, 재발 위험은 5년 이후에 낮아진다 – 즉, 위험률이 시간에 따라 감소한다. 와이블 분포는 지수 분포를 확장하여 일정한, 증가하는, 또는 감소하는 위험률을 허용한다.
기타 모수적 생존 함수
정규, 로그정규, 로그로지스틱, 감마 분포를 포함하여 특정 데이터 세트에 더 적합할 수 있는 여러 다른 모수적 생존 함수가 있다. 특정 응용에 대한 모수적 분포의 선택은 그래프 방법이나 적합도의 공식 검정을 사용하여 이루어질 수 있다. 이러한 분포와 검정은 생존 분석 교과서에 기술되어 있다.[^1][^3] Lawless는 모수적 모형에 대해 광범위하게 다루고 있다.
모수적 생존 함수는 제조업 분야에서 일반적으로 사용되는데, 이는 부분적으로 관측 기간을 넘어선 생존 함수의 추정을 가능하게 하기 때문이다. 그러나 모수적 함수의 적절한 사용을 위해서는 데이터가 선택된 분포로 잘 모델링되어야 한다. 적절한 분포를 이용할 수 없거나, 임상 시험이나 실험 전에 분포를 특정할 수 없는 경우, 비모수적 생존 함수가 유용한 대안을 제공한다.
비모수적 생존 함수
모수적 생존 모형이 가능하지 않거나 바람직하지 않을 수 있다. 이러한 상황에서 생존 함수를 모델링하는 가장 일반적인 방법은 비모수적 카플란-마이어 추정량이다. 이 추정량은 수명 데이터를 필요로 한다. 주기적인 사례(코호트) 및 사망(그리고 회복) 건수는 수명 데이터 없이도 생존 함수의 비모수적 최대우도 추정 및 최소제곱 추정을 수행하기에 통계적으로 충분하다.
속성
- 모든 생존 함수 S(t)는 단조 감소한다. 즉, 모든 u > t에 대해 S(u) \le S(t)이다. ** 이는 통상적으로 특정 시스템의 사망 또는 고장과 관련된 사건 집합을 시간에 대응시키는 확률 변수의 속성이다.
- 시간 t=0은 특정 기준점을 나타내며, 일반적으로 연구의 시작 또는 특정 시스템의 가동 시작을 의미한다. S(0)은 통상적으로 1이지만, 시스템이 가동 즉시 고장 날 확률을 나타내기 위해 1보다 작을 수 있다.
- 누적 분포 함수(CDF)가 우연속 함수이므로, 생존 함수 S(t) = 1 - F(t) 역시 우연속이다.
- 생존 함수는 확률 밀도 함수 f(t) 및 위험 함수 \lambda(t)와 다음과 같이 관련된다. ** f(t) = -S'(t) ** \lambda(t) = - \frac{d}{dt} \log S(t) 따라서 S(t) = \exp\left[ -\int_0^t \lambda(t') , dt' \right]
- 기대 생존 시간 \mathbb{E}(T) = \int_0^\infty S(t) , dt 확률 변수 T\in [0,\infty)의 기댓값은 다음과 같이 정의된다:
\mathbb{E}(T) = \int_0^\infty t f(t) , dt
여기서 f(t)는 확률 밀도 함수이다. f(t)=-S'(t) 관계식을 이용하면, 기댓값 공식을 다음과 같이 변환할 수 있다:
\mathbb {E} (T)=-\int _0^\infty t S'(t) , dt
부분 적분을 적용하면 이를 더욱 간소화할 수 있다:
-\int_0^\infty t S'(t) , dt = -t S(t){\bigg |}_0^\infty + \int_0^\infty S(t) , dt
정의에 의해 S(\infty )=0이므로, 경계 항은 모두 0이 된다. 따라서 기댓값은 단순히 생존 함수의 적분임을 알 수 있다:
\mathbb {E} (T) = \int_0^\infty S(t) , dt
같이 보기
*고장률 *초과 빈도 *카플란-마이어 추정량 *평균 고장 시간 *체류 시간 (통계학) *생존 곡선
참고 문헌
[^1]: Kleinbaum, David G.. 생존 분석: 자기 학습 교재. Springer
[^2]: Tableman, Mara. S를 이용한 생존 분석. Chapman and Hall/CRC
[^3]: Ebeling, Charles. 신뢰성 및 유지보수 공학 입문. Waveland Press
[^4]: Olkin, Ingram. 확률 모형과 응용. Macmillan
[^5]: Klein, John. 생존 분석: 중도절단 및 절삭 데이터 기법. Springer
[^6]: Mendenhall, William. 공학 및 과학을 위한 통계학. Pearson / Prentice Hall
[^7]: Brostrom, Göran. R을 이용한 사건 이력 분석. Chapman & Hall/CRC
[^8]: Efron, Bradley. 컴퓨터 시대의 통계적 추론: 알고리즘, 증거, 데이터 과학. Cambridge University Press
[^9]: Machin, D., Cheung, Y. B., Parmar, M. (2006). Survival Analysis: A Practical Approach. Deutschland: Wiley. 36쪽 이하 [https://books.google.com/books?id=z6_Hr9NGjr0C&pg=PA36 Google Books]
관련 인사이트

디지털 트윈, 당신 공장엔 이미 있다 — 엑셀과 MES 사이 어딘가에
디지털 트윈은 10억짜리 3D 시뮬레이션이 아니다. 지금 쓰고 있는 엑셀에 좋은 질문 하나를 더하는 것 — 두 전문가가 중소 제조기업이 이미 가진 데이터로 예측하는 공장을 만드는 현실적 로드맵을 제시한다.

공장의 뇌는 어떻게 생겼는가 — 제조운영 AI 아키텍처 해부
지식관리, 업무자동화, 의사결정지원 — 따로 보면 다 있던 것들입니다. 제조 AI의 진짜 차이는 이 셋이 순환하면서 '우리 공장만의 지능'을 만든다는 데 있습니다.

그 30분을 18년 동안 매일 반복했습니다 — 품질팀장이 본 AI Agent
18년차 품질팀장이 매일 아침 30분씩 반복하던 데이터 분석을 AI Agent가 3분 만에 해냈습니다. 챗봇과는 완전히 다른 물건 — 직접 시스템에 접근해서 데이터를 꺼내고 분석하는 AI의 현장 도입기.