본문으로 이동

생존분석

위키백과, 우리 모두의 백과사전.

생존분석(生存分析, 영어: survival analysis)은 통계학의 한 분야로, 생물학적 유기체의 사망이나 기계 시스템의 고장 등 어떠한 사건(event)이 발생하기까지 걸리는 예상 시간에 대해 분석하는 것이다.[1] 이 주제는 공학에서는 신뢰성 이론(reliability theory) 또는 신뢰성 공학이라 부르고, 경제학에서는 지속기간 분석(duration analysis) 또는 지속기간 모형이라 하며, 사회학에서는 사건사 분석(event history analysis)이라고 부른다. 생존분석은 특정 시간을 지나 생존할 모집단의 비율은 얼마인가? 생존한 표본 중 사망하거나 고장 날 비율은 얼마인가? 사망이나 고장의 여러 원인을 고려할 수 있는가? 특정 환경이나 특성이 생존 확률을 어떻게 증가시키거나 감소시키는가? 와 같은 질문에 답하고자 한다.

이러한 질문에 답하려면 "수명(lifetime)"을 정의해야 한다. 생물학적 생존의 경우 사망은 모호하지 않지만, 기계적 신뢰성의 경우 고장이 부분적이거나, 정도의 문제이거나, 시간에 국한되지 않는 시스템이 있을 수 있으므로 고장이 잘 정의되지 않을 수 있다. 생물학적 문제에서도 심근경색이나 기타 장기 부전과 같은 일부 사건은 동일한 모호성을 가질 수 있다. 아래에 설명된 이론은 특정 시간에 잘 정의된 사건을 가정한다. 다른 경우는 모호한 사건을 명시적으로 설명하는 모델로 더 잘 처리될 수 있다.

보다 일반적으로 생존분석은 '사건 발생까지의 시간(time to event)' 데이터를 모델링하는 것을 포함한다. 이 맥락에서 죽음이나 고장은 생존분석 문헌에서 "사건(event)"으로 간주된다. 전통적으로 각 대상에 대해 단 하나의 사건만 발생하며, 그 이후 유기체나 메커니즘은 죽거나 고장 난 것으로 본다.[2] 반복 사건(recurring event) 또는 반복 측정 모델은 이러한 가정을 완화한다. 반복 사건에 대한 연구는 시스템 신뢰성, 사회과학 및 의학 연구의 여러 영역과 관련이 깊다.

생존분석 개요

[원본 편집]

생존분석은 다음과 같은 다양한 방식으로 활용된다:

  • 그룹 구성원의 생존 시간을 설명할 때
  • 둘 이상의 그룹 간 생존 시간을 비교할 때
  • 범주형 또는 양적 변수가 생존에 미치는 영향을 설명할 때
    • 콕스 비례위험모형 회귀 (Cox proportional hazards regression)
    • 모수적 생존 모델 (Parametric survival models)
    • 생존 트리 (Survival trees)
    • 생존 랜덤 포레스트 (Survival random forests)

공통 용어 정의

[원본 편집]

생존분석에서 일반적으로 사용되는 용어는 다음과 같다:[3]

  • 사건 (Event): 사망, 질병 발생, 질병 재발, 회복 또는 기타 관심 있는 경험.
  • 시간 (Time): 관찰 기간의 시작(수술 또는 치료 시작 등)부터 (i) 사건 발생, 또는 (ii) 연구 종료, 또는 (iii) 연락 두절 혹은 연구 철회까지 걸린 시간.
  • 중도절단 / 중도절단된 관찰 (Censoring): 개인의 생존 시간에 대한 일부 정보는 있지만 정확한 생존 시간을 모를 때 발생한다. 중도절단 시점 이후 해당 대상에 대해 관찰되거나 알려진 것이 없다는 의미에서 대상은 중도절단(censored)된다고 표현한다. 중도절단된 대상은 관찰 기간 종료 후 사건을 겪을 수도 있고 겪지 않을 수도 있다.
  • 생존함수 (Survival function, S(t)): 대상이 시간 t보다 오래 생존할 확률.

예제: 급성 골수성 백혈병 생존 데이터

[원본 편집]

이 예제는 R의 "survival" 패키지에 있는 급성 골수성 백혈병(Acute Myelogenous Leukemia, AML) 생존 데이터 세트 "aml"을 사용한다. 이 데이터 세트는 Miller (1997)[4]의 자료이며, 화학요법의 표준 과정을 추가 주기로 연장('유지')해야 하는지에 대한 질문을 다룬다.

상자 안의 aml 데이터 세트는 생존 시간에 따라 정렬되어 있다.

생존 시간에 따라 정렬된 aml 데이터 세트
관측치 (observation) 시간 (weeks) 상태 (status) 치료 (x)
1251Nonmaintained (유지 안 함)
1351Nonmaintained
1481Nonmaintained
1581Nonmaintained
191Maintained (유지함)
16121Nonmaintained
2131Maintained
3130Maintained
17160Nonmaintained
4181Maintained
5231Maintained
18231Nonmaintained
19271Nonmaintained
6280Maintained
20301Nonmaintained
7311Maintained
21331Nonmaintained
8341Maintained
22431Nonmaintained
9450Maintained
23451Nonmaintained
10481Maintained
111610Maintained
  • 시간은 생존 또는 중도절단 시간을 나타내는 "time" 변수로 표시된다.
  • 사건(AML 암의 재발)은 "status" 변수로 표시된다. 0 = 사건 없음(중도절단됨), 1 = 사건 발생(재발).
  • 치료 그룹: "x" 변수는 유지 화학요법이 투여되었는지 여부를 나타낸다.

161주에 있는 마지막 관측치(11)는 중도절단되었다. 중도절단은 환자가 사건을 겪지 않았음(AML 암의 재발 없음)을 나타낸다. 또 다른 대상인 관측치 3은 13주에 중도절단되었다(status=0으로 표시됨). 이 대상은 13주 동안만 연구에 참여했으며, 해당 13주 동안 AML 암이 재발하지 않았다. 이 환자가 연구 종료 무렵에 등록되어 13주 동안만 관찰되었을 가능성도 있고, 연구 초기에 등록되었지만 추적 관찰이 끊기거나 연구에서 탈락했을 가능성도 있다. 표를 보면 16, 28, 45주(관측치 17, 6, 9)에 다른 대상들도 중도절단되었음을 알 수 있다. 나머지 대상들은 모두 연구 참여 중 사건(AML 암 재발)을 경험했다. 여기서 관심 있는 질문은 '유지군(Maintained)' 환자가 '비유지군(Nonmaintained)' 환자보다 재발이 늦게 일어나는가 하는 것이다.

aml 데이터에 대한 카플란-마이어 플롯

[원본 편집]

생존함수 S(t)는 대상이 시간 t보다 오래 생존할 확률이다. S(t)는 이론적으로 매끄러운 곡선이지만 일반적으로 카플란-마이어(KM) 곡선을 사용하여 추정한다.[5] 그래프는 aml 데이터에 대한 KM 플롯을 보여주며 다음과 같이 해석할 수 있다:

  • x축은 0(관찰 시작)부터 마지막 관찰 시점까지의 시간이다.
  • y축은 생존한 대상의 비율이다. 0시간에는 100%의 대상이 사건 없이 살아있다.
  • 실선(계단 모양과 유사)은 사건 발생의 진행을 보여준다.
  • 수직 강하는 사건을 나타낸다. 위 aml 표에서 5주에 2명, 8주에 2명, 9주에 1명의 대상이 사건을 겪었다. 5주, 8주 등에 발생하는 이러한 사건은 KM 플롯에서 해당 시점의 수직 강하로 표시된다.
  • KM 플롯의 맨 오른쪽 끝에 161주를 나타내는 눈금이 있다. 수직 눈금 기호는 환자가 이 시점에 중도절단되었음을 나타낸다. 데이터 표에서 13, 16, 28, 45, 161주에 5명의 대상이 중도절단되었다. KM 플롯에는 이러한 중도절단 관측치에 해당하는 5개의 눈금 기호가 있다.

aml 데이터를 위한 생명표

[원본 편집]

생명표(life table)는 각 사건 시점에서 사건의 수와 생존 비율 측면에서 생존 데이터를 요약한다. R 소프트웨어를 사용하여 생성한 aml 데이터의 생명표는 아래와 같다.

aml 데이터 생명표
timen.riskn.eventsurvivalstd.errlower 95% CIupper 95% CI
52320.9130.05880.80491
82120.82610.0790.68480.996
91910.78260.0860.6310.971
121810.73910.09160.57980.942
131710.69570.09590.53090.912
181410.6460.10110.47530.878
231320.54660.10730.37210.803
271110.49690.10840.3240.762
30910.44170.10950.27170.718
31810.38650.10890.22250.671
33710.33130.10640.17650.622
34610.27610.1020.13380.569
43510.22080.09540.09470.515
45410.16560.0860.05980.458
48210.08280.07270.01480.462

생명표는 사건과 각 사건 시점의 생존 비율을 요약한다. 열의 의미는 다음과 같다.

  • time: 사건이 발생하는 시점이다.
  • n.risk: 시점 t 직전에 위험에 처한 대상의 수이다. "위험에 처해 있다(at risk)"는 것은 대상이 t 시점 이전에 사건을 겪지 않았으며, t 시점 이전 또는 t 시점에 중도절단되지 않았음을 의미한다.
  • n.event: 시점 t에 사건을 겪은 대상의 수이다.
  • survival: 카플란-마이어 곱-한계 추정치로 결정된 생존 비율이다.
  • std.err: 추정된 생존의 표준 오차이다. 그린우드의 공식(Greenwood's formula)을 사용하여 계산되며 위험에 처한 수(n.risk), 사망 수(n.event), 생존 비율(survival)에 따라 달라진다.
  • lower 95% CIupper 95% CI: 생존 비율에 대한 95% 신뢰 하한 및 상한이다.

로그순위법: aml 데이터의 생존 차이 검정

[원본 편집]

로그순위법(Log-rank test)은 둘 이상의 그룹의 생존 시간을 비교한다.[6] 이 예제에서는 aml 데이터의 유지군 대 비유지군 치료 그룹의 생존 차이에 대한 로그순위 검정을 수행한다.

aml의 치료 그룹별 카플란-마이어 그래프

로그순위법의 귀무가설은 그룹들이 동일한 생존율을 보인다는 것이다. 각 그룹에서 각 시점마다 생존할 것으로 예상되는 대상의 수는 각 사건 시점에서 그룹 내 위험에 처한 대상의 수에 맞게 조정된다. 로그순위법은 각 그룹에서 관찰된 사건의 수가 예상 수와 유의하게 다른지 여부를 결정한다.[7] 공식 검정은 카이제곱 통계량을 기반으로 한다. 로그순위 통계량이 크면 두 그룹 간의 생존 시간에 차이가 있다는 증거가 된다. 이 통계량은 근사적으로 자유도가 1인 카이제곱 분포를 따르며, p-값은 카이제곱 검정을 사용하여 계산된다.

예제 데이터의 경우, 생존 차이에 대한 로그순위법은 p-값 p=0.0653을 산출하며, 알파 수준 0.05를 가정할 때 치료 그룹 간에 생존율이 유의하게 다르지 않음을 나타낸다. 23명이라는 표본 크기는 작은 편이므로 치료 그룹 간의 차이를 발견할 검정력(power)이 거의 없다. 카이제곱 검정은 점근적 근사에 의존하므로, 표본 크기가 작은 경우 p-값은 신중하게 해석해야 한다.[8]

콕스 비례위험모형 (Cox PH) 분석

[원본 편집]

카플란-마이어 곡선과 로그순위법은 예측 변수가 범주형이거나(예: 약물 대 위약), 범주형으로 취급할 수 있는 소수의 값(예: 약물 복용량 0, 20, 50, 100mg/일)을 가질 때 가장 유용하다.[9] 그러나 유전자 발현, 백혈구 수치, 연령 등 양적인 예측 변수에는 잘 작동하지 않는다. 양적 예측 변수의 경우 대안적인 방법이 바로 콕스 비례위험모형(Cox proportional hazards regression) 분석이다. 이 모형은 {0, 1}의 지시 변수나 더미 변수로 인코딩된 범주형 예측 변수와도 잘 작동한다. 사실 로그순위법은 콕스 PH 분석의 특수한 경우로 볼 수 있다.

예제: 흑색종에 대한 콕스 비례위험모형

[원본 편집]

이 예제는 Dalgaard(2008)의 14장에 있는 흑색종(melanoma) 데이터 세트를 사용한다.[10] 데이터는 R 패키지 ISwR에 있다. R을 사용한 콕스 비례위험모형 회귀 분석은 아래 그림과 같은 결과를 제공한다.

흑색종 데이터에 대한 콕스 비례위험 회귀 출력. 예측 변수는 성별(sex)로, 1은 여성, 2는 남성이다.

결과는 다음과 같이 해석할 수 있다.

  • 성별은 숫자 벡터로 인코딩된다(1: 여성, 2: 남성). 요약표는 첫 번째 그룹 대비 두 번째 그룹(즉, 여성 대비 남성)의 위험비(Hazard Ratio, HR)를 제공한다.
  • coef = 0.662는 남성 대비 여성에 대한 위험비의 추정된 로그 값이다.
  • exp(coef) = 1.94 = exp(0.662) - 로그 위험비가 exp(coef)를 사용하여 위험비로 변환된다. 추정된 위험비 1.94는 이 데이터에서 남성이 여성보다 사망 위험이 높다(생존율이 낮다)는 것을 나타낸다.
  • se(coef) = 0.265는 로그 위험비의 표준 오차이다.
  • z = 2.5 = coef / se(coef) = 0.662 / 0.265. 계수를 표준 오차로 나누면 z-점수가 나온다.
  • p = 0.013. 성별에 대한 z=2.5에 해당하는 p-값으로, 성별에 따라 생존율에 유의미한 차이가 있음을 나타낸다.

공변량을 사용한 콕스 모델 확장

[원본 편집]

콕스 모형은 추가적인 공변량(covariate)을 포함할 수 있도록 확장될 수 있다.[11] 종양 두께와 같은 연속형 공변량을 포함하여 분석할 수 있으며, 데이터 분포에 따라 로그 변환 등을 거친 후 회귀 분석을 적용할 수 있다. 모델이 의미 있는지 확인하기 위해 여러 가설 검정(우도비 검정, 왈드 검정, 스코어 검정)을 사용하며, 변수 간 비례 위험 가정을 위배하지 않는지도 추가로 검증해야 한다.

트리 기반 생존 모델 (Tree-structured survival models)

[원본 편집]

콕스 PH 회귀 모델은 선형 모델이다. 선형 회귀 및 로지스틱 회귀와 마찬가지로 단일 선, 곡선, 평면 또는 표면이 그룹(생사)을 분리하거나 정량적 응답(생존 시간)을 추정하기에 충분하다고 가정한다.

경우에 따라 대안적 분할 방법이 더 정확한 분류 또는 정량적 추정치를 제공한다. 여기에는 생존 랜덤 포레스트를 포함한 트리 구조 생존 모델이 있다.[12][13][14][15] 트리 구조 생존 모델은 콕스 모델보다 더 정확한 예측을 제공할 수 있다. 주어진 데이터 세트에 대해 두 가지 유형의 모델을 모두 검토하는 것이 합리적인 전략이다. 단일 트리를 만드는 것 대신 여러 개의 생존 트리를 만들고 평균을 내어 예측력을 높이는 랜덤 포레스트(Random Forest) 기법이 많이 활용된다.

딥러닝 생존 모델

[원본 편집]

최근 심층 표현 학습의 발전이 생존 추정으로 확장되었다. DeepSurv[16] 모델은 콕스 PH 모델의 로그-선형 파라미터화를 다층 퍼셉트론(MLP)으로 대체할 것을 제안한다. Deep Survival Machines[17] 및 Deep Cox Mixtures[18]과 같은 추가 확장은 입력 공변량의 표현을 학습하는 동시에, 사건 발생 시간의 분포를 모수적 또는 준모수적 혼합 분포로 모델링하기 위해 잠재 변수 혼합 모델을 사용한다. 딥러닝 접근 방식은 특히 이미지 및 임상 시계열과 같은 복잡한 입력 데이터에서 우수한 성능을 보여주었다.

생존분석에 쓰이는 함수들

[원본 편집]

생존함수

[원본 편집]

생존분석의 주된 관심사는 생존함수(survival function) S(t)이며, 다음과 같이 정의한다.

여기서 t는 특정한 시간, T는 사망이나 사건 발생에 이르는 시간을 나타내는 확률변수이며, "Pr"은 확률함수이다. 즉, 생존함수는 관찰된 사건 발생 시간이 지정된 특정 시간 t보다 클 확률을 의미한다. 생존함수는 생물학 분야에서 쓰일 때 survivor function, survivorship function이라고도 하며, 공학 분야에서 쓰일 때 reliability function(신뢰성 함수)이라고도 한다. 후자의 경우에는 reliability function을 보통 R(t)라고 쓴다.

일반적으로 이지만, 관찰을 시작하자마자 표본이 즉각적으로 사망 또는 고장날 가능성이 있다면 1보다 작을 수 있다.

생존함수는 단조감소함수(non-increasing)이어야 한다: 이면 이다. 이는 특정 연령까지 생존해야만 그 이후의 연령에도 도달할 수 있다는 사실을 반영한다. 이 성질을 감안할 때, 수명 분포 함수와 사건 밀도는 잘 정의된다. 생존함수는 나이가 끝없이 증가함에 따라 0에 수렴한다고 가정하는 것이 일반적이지만, 불멸이 가능하다면 한계가 0보다 클 수도 있다.

생존분포함수와 사건밀도

[원본 편집]

생존분포함수(lifetime distribution function) 또는 사건분포함수 F(t)는 생존함수의 여집합(complement)으로 정의된다.

만약 F(t)가 미분가능하다면, 그 미분된 함수는 생존분포의 밀도 f(t)라 하고 다음과 같이 정의한다.

f(t)사건밀도(event density)라고도 하며, 이는 단위 시간당 사망 또는 고장 발생 비율을 뜻한다.

앞에서 정의한 확률분포와 확률밀도함수를 통해 생존함수를 다시 표현할 수 있다.

마찬가지로 생존사건밀도함수(survival event density function)는 다음과 같이 정의된다.

위험함수와 누적위험함수

[원본 편집]

위험함수(hazard function) h(t)는 시간 t에 생존해 있다는 조건 하에, 시간 t에서의 사건 발생률로 정의된다. 위험함수는 위험률(hazard rate), 강도함수(intensity function), 사력(force of mortality, ), 고장률(failure rate, ) 등 분야마다 다양하게 불린다.

수학적으로는 대상이 시간 까지 생존했을 때, 다음의 아주 짧은 시간 간격 안에 사건을 경험할 확률을 그 시간 간격의 길이로 나눈 값이다. 형식적으로는 다음과 같이 작성할 수 있다.

어떤 함수 가 위험함수가 되기 위한 필요충분조건은 다음 두 가지 속성을 만족하는 것이다.

위험함수는 대개 수명 분포의 다른 표현 방식보다 실패의 근본적인 메커니즘에 대해 더 많은 정보를 제공한다. 위험함수는 증가하거나 감소할 수도 있고, 비단조적이거나 불연속적일 수도 있다.

위험함수는 대안적으로 누적위험함수(cumulative hazard function, 보통 또는 로 표기)로 나타낼 수 있다.

부호를 바꾸고 지수화하면 다음과 같다.

또는 연쇄법칙을 사용하여 미분하면 다음과 같다.

"누적위험함수"라는 이름은 그것이 시간에 따른 위험의 "누적"이라는 사실에서 유래되었다.

의 정의에서 알 수 있듯이, 이 값은 t가 무한대로 감에 따라 무한히 증가한다(생존함수가 0에 수렴한다고 가정할 때). 이는 누적위험이 발산해야 하므로 위험함수 가 너무 빨리 감소해서는 안 됨을 의미한다.

이러한 함수들은 모두 다음과 같은 관계로 연결되어 있다.

생존 분포에서 유도된 값들

[원본 편집]

주어진 시간 에서의 기대 여명(future lifetime)은 까지 생존했다고 가정할 때 죽음까지 남은 시간이며, 로 표기된다. 평균 기대 여명은 이 남은 시간의 기댓값을 뜻한다. 까지 생존했다는 조건 하에 특정 시점 이전에 사망할 확률은 다음과 같다.

따라서 기대 여명의 확률밀도함수는 다음과 같고,

평균 기대 여명은 다음과 같이 계산된다(부분적분 적용).

신뢰성 문제에서 평균 수명은 고장까지의 평균 시간(MTTF)으로 불리며, 평균 기대 여명은 평균 잔여 수명이라고 불린다. 생존자 비율에 대한 분위수(quantile)도 구할 수 있으며, 대표적으로 중앙값 수명(median lifetime, q=1/2)이 자주 사용된다.

중도절단

[원본 편집]

중도절단(censoring)은 생존분석에서 결측 데이터(missing data) 문제를 처리하는 한 형태이다. 이상적으로는 표본의 출생일과 사망일(또는 시작과 고장 시점)을 통해 생존 기간을 파악하는 것이 좋지만, 모든 대상을 끝까지 관찰하지 못하고 연구가 종료되거나 대상이 이탈하는 등 사건 발생 시간을 알 수 없을 때 중도절단이 적용된다.

  • 우측 중도절단 (Right censoring): 실제 사건 시간 T의 하한 l만 알려져서 T > l이 되는 경우이다. 주로 연구가 종료될 때까지 대상이 살아있거나 추적 관찰이 끊긴 경우에 발생하며 가장 일반적인 형태이다.
  • 좌측 중도절단 (Left censoring): 대상이 연구에 포함되기 전에 사건이 이미 일어났지만 언제 발생했는지 모를 때이다.[19] 치아 맹출 시기를 관찰하는 연구에서 관찰 시작 전에 이미 치아가 난 경우가 그 예이다.
  • 구간 중도절단 (Interval censoring): 사건이 관찰과 관찰 사이의 특정 구간에서 발생했다는 것만 알 수 있을 때이다. HIV 양성 판정과 같이 주기적인 의료 검진을 통해 질병 발생 여부를 알 수 있는 경우 흔히 발생한다.
  • 절사 (Truncation): 수명이 특정 임곗값보다 낮은 대상이 관찰되지 않는 경우이다. 좌측 중도절단 데이터는 대상이 존재한다는 것은 알지만, 절사 데이터는 아예 대상을 알지 못할 수 있다는 점에서 다르다. 예를 들어 취학 연령 이후의 아동만 관찰하는 경우, 학령기 이전에 사망한 경우는 분석에 반영되지 않는다. 생명보험 및 연금의 보험 수리 작업에서 흔히 볼 수 있다.[20]

모수 적합 및 추정

[원본 편집]

생존 모델은 반응 변수가 시간인 일반 회귀 모델로도 볼 수 있지만, 중도절단으로 인해 우도 함수(likelihood function)를 계산하기가 복잡하다. 우도 함수는 데이터를 중도절단 유형(검열되지 않음, 좌측, 우측, 구간)에 따라 4가지 범주로 나누어 곱하는 방식으로 추정된다.

그 외에도 카플란-마이어(Kaplan-Meier) 추정량을 통해 생존함수를 추정하거나 넬슨-아알렌(Nelson-Aalen) 추정량을 사용하여 누적 위험률 함수의 비모수적 추정치를 제공할 수 있다. 완치 모형(Cure model)을 도입하면 대상 중 일부가 끝까지 사건을 경험하지 않을 가능성(예: 완전 치료)을 반영하여 생존 곡선이 0으로 수렴하지 않고 안정된 평탄(plateau) 곡선을 그리도록 모델링할 수 있다.

소프트웨어 및 적용

[원본 편집]

생존분석은 SAS, SPSS, R, Python 등 다양한 통계 및 프로그래밍 소프트웨어 패키지에서 광범위하게 지원된다. 주로 다음과 같은 분야에서 널리 적용된다.

  • 개인 및 기업 대출의 신용 위험(디폴트 리스크) 평가
  • 항공우주 산업 부품의 리드 타임 분석
  • 사형수 등 기소자의 오심 비율 추정
  • 범죄자의 재범률 예측
  • 부착형 추적기를 통한 동물 이동 및 생존 예측
  • 전자 거래된 주식의 주식 거래 대기 시간 예측 등

같이 보기

[원본 편집]

외부 링크

[원본 편집]
  1. Clark, T G; Bradburn, M J; Love, S B; Altman, D G (2003년 7월 15일). Survival Analysis Part I: Basic concepts and first analyses (영어). British Journal of Cancer 89 (2): 232–238. doi:10.1038/sj.bjc.6601118. PMC 2394262. PMID 12865907.
  2. Kalbfleisch, John D.; Prentice, Ross L. (2002년 8월 26일). The Statistical Analysis of Failure Time Data 1판 (영어). Wiley Series in Probability and Statistics. Wiley. doi:10.1002/9781118032985. ISBN 978-0-471-36357-6.
  3. Mills, Melinda (2011). Introducing survival and event history analysis. London Thousand Oaks, Calif: Sage. ISBN 978-1-84860-101-7.
  4. Miller, Rupert G. (1997), Survival analysis, John Wiley & Sons, ISBN 0-471-25218-2
  5. Kaplan, E. L.; Meier, Paul (1958년 6월 1일). Nonparametric Estimation from Incomplete Observations. Journal of the American Statistical Association 53 (282): 457–481. doi:10.1080/01621459.1958.10501452. ISSN 0162-1459.
  6. Kleinbaum, David G.; Klein, Mitchel (2012), Survival analysis: A Self-learning text Thi판, Springer, ISBN 978-1-4419-6645-2
  7. Hosmer, David W.; Lemeshow, Stanley; May, Susanne (2008년 2월 26일). Applied Survival Analysis (영어). Wiley Series in Probability and Statistics. Wiley. doi:10.1002/9780470258019. ISBN 978-0-471-75499-2.
  8. Agresti, Alan (2018). Statistical methods for the social sciences Fif, global판. Harlow: Pearson Education, Limited. ISBN 978-1-292-22034-5.
  9. Therneau, Terry M.; Grambsch, Patricia M. (2000). Modeling survival data: extending the Cox model. Statistics for biology and health. New York: Springer. ISBN 978-0-387-98784-2.
  10. Dalgaard, Peter (2008), Introductory Statistics with R Seco판, Springer, ISBN 978-0-387-79053-4
  11. Saegusa, Takumi; Di, Chongzhi; Chen, Ying Qing (September 2014). Hypothesis testing for an extended cox model with time-varying coefficients (영어). Biometrics 70 (3): 619–628. doi:10.1111/biom.12185. ISSN 0006-341X. PMC 4247822. PMID 24888739.
  12. Segal, Mark Robert (1988). Regression Trees for Censored Data. Biometrics 44 (1): 35–47. doi:10.2307/2531894. JSTOR 2531894. S2CID 60974957.
  13. Leblanc, Michael; Crowley, John (1993). Survival Trees by Goodness of Split (영어). Journal of the American Statistical Association 88 (422): 457–467. doi:10.1080/01621459.1993.10476296. ISSN 0162-1459.
  14. Ritschard, Gilbert; Gabadinho, Alexis; Muller, Nicolas S.; Studer, Matthias (2008). Mining event histories: a social science perspective (영어). International Journal of Data Mining, Modelling and Management 1 (1): 68. doi:10.1504/IJDMMM.2008.022538. ISSN 1759-1163.
  15. Ishwaran, Hemant; Kogalur, Udaya B.; Blackstone, Eugene H.; Lauer, Michael S. (2008년 9월 1일). Random survival forests. The Annals of Applied Statistics 2 (3). arXiv:0811.1645. doi:10.1214/08-AOAS169. ISSN 1932-6157. S2CID 2003897.
  16. Singh, Jared; Katzman, L. (2018). DeepSurv: personalized treatment recommender system using a Cox proportional hazards deep neural network. BMC Medical Research Methodology.
  17. Nagpal, Chirag (2021). Deep survival machines: Fully parametric survival regression and representation learning for censored data with competing risks.. IEEE Journal of Biomedical and Health Informatics 25 (8): 3163–3175. arXiv:2003.01176. Bibcode:2021IJBHI..25.3163N. doi:10.1109/JBHI.2021.3052441. PMID 33460387. S2CID 211817982.
  18. Nagpal, Chirag (2021). Deep Cox mixtures for survival regression.. Machine Learning for Healthcare Conference. arXiv:2101.06536.
  19. Darity, William A. Jr. 편집 (2008). Censoring, Left and Right 2판. International Encyclopedia of the Social Sciences 1. Macmillan. 473–474쪽. 2016년 11월 6일에 확인함.
  20. Richards, S. J. (2012). A handbook of parametric survival models for actuarial use. Scandinavian Actuarial Journal 2012 (4): 233–257. doi:10.1080/03461238.2010.506688. S2CID 119577304.