누적 분포 함수

확률론에서 누적분포함수(累積分布函數, 영어: cumulative distribution function, 약자 cdf)는 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수이다.

정의[편집]

확률 공간 $(\Omega ,{\mathcal {F}},\operatorname {Pr} )$ 위의 실숫값 확률 변수 $X\colon \Omega \to (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))$ 의 (우연속) 누적분포함수 $F_{X}\colon \mathbb {R} \to \mathbb {R}$ 는 다음과 같다.

F_{X}(x)=\operatorname {Pr} (X\in (-\infty ,x])\qquad \forall x\in \mathbb {R}

보다 일반적으로, 확률 공간 $(\Omega ,{\mathcal {F}},\operatorname {Pr} )$ 위의 실숫값 확률 벡터 $X=(X_{1},\dots ,X_{n})\colon \Omega \to (\mathbb {R} ^{n},{\mathcal {B}}(\mathbb {R} ^{n}))$ 의 (우연속) 누적분포함수 $F_{X}\colon \mathbb {R} ^{n}\to \mathbb {R}$ 는 다음과 같다.

F_{X}(x_{1},\dots ,x_{n})=\operatorname {Pr} (X_{1}\in (-\infty ,x_{1}],\dots ,X_{n}\in (-\infty ,x_{n}])\qquad \forall (x_{1},\dots ,x_{n})\in \mathbb {R} ^{n}

위 정의에 등장하는 반닫힌구간들을 열린구간으로 대체하면 좌연속 누적분포함수의 정의를 얻는다.

성질[편집]

함수로서의 성질[편집]

임의의 함수 $F\colon \mathbb {R} \to \mathbb {R}$ 에 대하여, 다음 두 조건이 서로 동치이다.

$F$ 는 어떤 확률 변수의 누적분포함수이다.
다음 조건들을 만족시킨다.
- (증가 함수) 만약 $x,y\in \mathbb {R}$ 이며 $x\leq y$ 라면, $F(x)\leq F(y)$
- (우연속 함수) 임의의 $x\in \mathbb {R}$ 에 대하여, $F(x^{+})=F(x)$
- $F(-\infty )=0$
- $F(\infty )=1$

여기서 $F(x^{+})$ 는 우극한이며, $F(-\infty )$ 와 $F(\infty )$ 는 음과 양의 무한대에서의 극한이다.

보다 일반적으로, 임의의 함수 $F\colon \mathbb {R} ^{n}\to \mathbb {R}$ 에 대하여, 다음 두 조건이 서로 동치이다.

$F$ 는 어떤 확률 벡터의 누적분포함수이다.
다음 조건들을 만족시킨다.
- 만약 $x,y\in \mathbb {R} ^{n}$ 이며 $x_{i}\leq y_{i}\forall i\in \{1,\dots ,n\}$ 이라면, $\textstyle \sum _{t\in \{x_{1},y_{1}\}\times \cdots \times \{x_{n},y_{n}\}}(-1)^{|\{i\colon t_{i}=x_{i}\}|}F(t)\geq 0$ . (이 조건과 세 번째 조건은 $F$ 가 각 변수에 대하여 증가 함수임을 함의한다.)
- (우연속 함수) 임의의 $x\in \mathbb {R} ^{n}$ 에 대하여, $F(x^{+})=F(x)$
- 임의의 $i\in \{1,\dots ,n\}$ 및 $x_{1},\dots ,x_{i-1},x_{i+1},\dots ,x_{n}\in \mathbb {R}$ 에 대하여, $F(x_{1},\dots ,x_{i-1},-\infty ,x_{i+1},\dots ,x_{n})=0$
- $F(\infty ,\dots ,\infty )=1$

여기서

F(x^{+})=\lim _{y_{1}\to x_{1}^{+},\dots ,y_{n}\to x_{n}^{+}}F(y)

F(x_{1},\dots ,x_{i-1},-\infty ,x_{i+1},\dots ,x_{n})=\lim _{x_{i}\to -\infty }F(x)

F(\infty ,\dots ,\infty )=\lim _{x_{1}\to \infty ,\dots ,x_{n}\to \infty }F(x)

이다.

확률 분포와의 관계[편집]

확률 변수 또는 확률 벡터의 누적분포함수는 그 확률 분포를 유일하게 결정한다. 이는 누적분포함수에 대한 르베그-스틸티어스 측도와 일치한다. 그러나 누적분포함수는 확률 변수 자체를 유일하게 결정하지는 않는다.

확률 변수 $X$ 가 구간 $(a,b]$ 에 속할 확률과 특정 실수 $x\in \mathbb {R}$ 를 취할 확률은 누적분포함수 $F_{X}$ 를 통해 각각 다음과 같이 나타낼 수 있다.

\operatorname {Pr} (X\in (a,b])=F_{X}(b)-F_{X}(a)

\operatorname {Pr} (X=x)=F_{X}(x)-F_{X}(x^{-})

보다 일반적으로, 확률 벡터 $X=(X_{1},\dots ,X_{n})$ 가 $(a_{1},b_{1}]\times \cdots \times (a_{n},b_{n}]$ 에 속할 확률과 특정 값 $x=(x_{1},\dots ,x_{n})\in \mathbb {R} ^{n}$ 을 취할 확률은 각각 다음과 같다.

\operatorname {Pr} (X_{1}\in (a_{1},b_{1}],\dots ,X_{n}\in (a_{n},b_{n}])=\sum _{t\in \{a_{1},b_{1}\}\times \cdots \times \{a_{n},b_{n}\}}(-1)^{|\{i\colon t_{i}=a_{i}\}|}F_{X}(t)

\operatorname {Pr} (X_{1}=x_{1},\dots ,X_{n}=x_{n})=\lim _{\epsilon \to 0^{+}}\sum _{t\in \{x_{1}-\epsilon ,x_{1}\}\times \cdots \times \{x_{n}-\epsilon ,x_{n}\}}(-1)^{|\{i\colon t_{i}=x_{i}-\epsilon \}|}F_{X}(t)

이산성·연속성·특이성과의 관계[편집]

확률 변수 $X$ 에 대하여, 다음 두 조건이 서로 동치이다.

$X$ 는 이산 확률 변수이다. (즉, $\operatorname {Pr} (X\in A)=1$ 인 가산 집합 $A\in {\mathcal {B}}(\mathbb {R} )$ 이 존재한다.)
$\textstyle \sum _{x\in \mathbb {R} }\left(F_{X}(x)-\lim _{y\to x^{-}}F_{X}(y)\right)=1$

특히, 계단 함수를 누적분포함수로 하는 확률 변수는 이산 확률 변수이다. 그러나 그 역은 성립하지 않는다.

확률 변수 $X$ 에 대하여, 다음 두 조건이 서로 동치이다.

$X$ 는 연속 확률 변수이다. (즉, 임의의 $x\in \mathbb {R}$ 에 대하여, $\operatorname {Pr} (X=x)=0$ 이다.)
$F_{X}$ 는 연속 함수이다.

확률 변수 $X$ 에 대하여, 다음 두 조건이 서로 동치이다.

$X$ 는 절대 연속 확률 변수이다. (즉, 확률 분포 $\operatorname {Pr} (X\in \bullet )$ 는 르베그 측도에 대한 절대 연속 측도이다. 또는, $X$ 는 확률 밀도 함수를 갖는다.)
$F_{X}$ 는 임의의 닫힌구간에서 절대 연속 함수이다.

확률 변수 $X$ 에 대하여, 다음 두 조건이 서로 동치이다.

$X$ 는 특이 확률 변수이다. (즉, 확률 분포 $\operatorname {Pr} (X\in \bullet )$ 와 르베그 측도는 서로 특이 측도이다.)
르베그 거의 어디서나 $F_{X}'=0$ 이다.

임의의 누적분포함수 $F$ 는 이산 누적분포함수 $F_{\operatorname {disc} }$ 와 절대 연속 누적분포함수 $F_{\operatorname {a.c.} }$ , 특이 연속 누적분포함수 $F_{\operatorname {s.c.} }$ 의 음이 아닌 계수의 아핀 결합으로 나타낼 수 있다.

F=cF_{\operatorname {disc} }+c'F_{\operatorname {a.c.} }+c''F_{\operatorname {s.c.} }

c,c',c''\geq 0

c+c'+c''=1

독립성과의 관계[편집]

같은 확률 공간 위의 확률 변수 또는 확률 벡터들의 집합 ${\mathcal {X}}$ 에 대하여, 다음 두 조건이 서로 동치이다.

${\mathcal {X}}$ 는 서로 독립이다.
임의의 서로 다른 $X_{1},\dots ,X_{n}\in {\mathcal {X}}$ 및 임의의 $x_{i}\in \operatorname {dom} F_{X_{i}}$ ( $i=1,\dots ,n$ )에 대하여, $F_{(X_{1},\dots ,X_{n})}(x_{1},\dots ,x_{n})=F_{X_{1}}(x_{1})\cdots F_{X_{n}}(x_{n})$

증명:

첫 번째 조건은 두 번째 조건을 자명하게 함의한다. 이제 두 번째 조건을 가정하고 첫 번째 조건을 증명하자. 유한 개의 확률 변수

{\mathcal {X}}=\{X_{1},\dots ,X_{n}\}

X_{i}\colon (\Omega ,{\mathcal {F}},\operatorname {Pr} )\to (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} ))

의 경우의 증명은 다음과 같다. 일반적인 경우는 이와 유사하게 증명할 수 있다.

{\mathcal {C}}=\{(-\infty ,x]\colon x\in \mathbb {R} \}

라고 하자. 그렇다면 ${\mathcal {C}}$ 는 π계를 이루며, ${\mathcal {B}}(\mathbb {R} )$ 는 ${\mathcal {C}}$ 를 포함하는 최소의 시그마 대수이다. 다음과 같은 집합을 생각하자.

{\mathcal {L}}_{n}=\{B_{n}\in {\mathcal {B}}(\mathbb {R} )|\forall B_{1},\dots ,B_{n-1}\in {\mathcal {C}}\colon \operatorname {Pr} (X_{1}\in B_{1},\dots ,X_{n}\in B_{n})=\operatorname {Pr} (X_{1}\in B_{1})\cdots \operatorname {Pr} (X_{n}\in B_{n})\}

그렇다면, 가정한 조건에 따라 ${\mathcal {C}}\subseteq {\mathcal {L}}_{n}$ 이다. 또한, ${\mathcal {L}}_{n}$ 은 λ계를 이룸을 보일 수 있다. 딘킨 π-λ 정리에 따라, ${\mathcal {L}}_{n}={\mathcal {B}}(\mathbb {R} )$ 이다. 이제, 다음과 같은 집합을 생각하자.

{\mathcal {L}}_{n-1}=\{B_{n-1}\in {\mathcal {B}}(\mathbb {R} )|\forall B_{1},\dots ,B_{n-2}\in {\mathcal {C}},B_{n}\in {\mathcal {B}}(\mathbb {R} )\colon \operatorname {Pr} (X_{1}\in B_{1},\dots ,X_{n}\in B_{n})=\operatorname {Pr} (X_{1}\in B_{1})\cdots \operatorname {Pr} (X_{n}\in B_{n})\}

그렇다면, ${\mathcal {L}}_{n}={\mathcal {B}}(\mathbb {R} )$ 이므로 ${\mathcal {C}}\subseteq {\mathcal {L}}_{n-1}$ 이며, ${\mathcal {L}}_{n-1}$ 은 λ계를 이룬다. 따라서 ${\mathcal {L}}_{n-1}={\mathcal {B}}(\mathbb {R} )$ 이다. 이와 같은 과정을 반복하면 결국 임의의 $B_{1},\dots ,B_{n}\in {\mathcal {B}}(\mathbb {R} )$ 에 대하여,

\operatorname {Pr} (X_{1}\in B_{1},\dots ,X_{n}\in B_{n})=\operatorname {Pr} (X_{1}\in B_{1})\cdots \operatorname {Pr} (X_{n}\in B_{n})

이라는 사실을 얻는다. 즉, $\{X_{1},\dots ,X_{n}\}$ 은 서로 독립이다.

같이 보기[편집]

기술통계학

참고 문헌[편집]

Athreya, Krishna B.; Lahiri, Soumendra N. (2006). 《Measure Theory and Probability Theory》. Springer Texts in Statistics (영어). New York, NY: Springer. doi:10.1007/978-0-387-35434-7. ISBN 978-0-387-32903-1. ISSN 1431-875X. Zbl 1125.60001.

외부 링크[편집]

“Distribution function”. 《Encyclopedia of Mathematics》 (영어). Springer-Verlag. 2001. ISBN 978-1-55608-010-4.
Weisstein, Eric Wolfgang. “Distribution function”. 《Wolfram MathWorld》 (영어). Wolfram Research.