체비쇼프 부등식

확률론에서 파프누티 체비쇼프의 이름을 딴 체비쇼프 부등식(체비세프 부등식, 체비쇼프 정리, 비에나메-체비쇼프 부등식이라고도 한다)은 확률 분포에서 그 어떠한 데이터 샘플 혹은 확률 분포에서 거의 모든 값이 평균값 (mean value)에 근접하며 "거의 모든" 과 "근접하는"의 양적 설명을 제공한다.

예를 들자면,

값 들 중 평균값으로부터 2 표준편차 이상 떨어진 것들은 1/4 이상을 차지하지 않는다;
3 표준편차 이상 떨어진 것들은 1/9 이상 차지하지 않는다;
5 표준편차 이상 떨어진 것들은 1/25 이상 차지하지 않는다;

등등이다. 일반적으로:

값들 중 평균값으로부터 k 표준 편차 이상 떨어진 것들은 1/k² 이상 차지하지 않는다.

일반 공식[편집]

이 부등식은 측도를 사용하여 상당히 일반적으로 나타낼 수 있다; 그렇다면 확률론의 언어로 나타낸 식은 측도 1의 공간을 위한 특정 사례로써 따르게 된다.

측도론에 따른 정의[편집]

측도 공간 (X,Σ,μ)와, X 상에 정의된 확장된 실수값을 갖고 잴 수 있는 함수 f가 있다고 하자. 그렇다면 어떤 실수 t > 0에 대해서도 다음 부등식이 성립한다:

\mu (\{x\in X\,:\,\,|f(x)|\geq t\})\leq {1 \over t^{2}}\int _{X}f^{2}\,d\mu .

좀 더 일반적으로, 만약 g 가 음수가 아닌 확장된 실수값을 갖고 잴 수 있는 함수이며, f의 범위에서 감소하지 않는다면,

\mu (\{x\in X\,:\,\,f(x)\geq t\})\leq {1 \over g(t)}\int _{X}g\circ f\,d\mu .

그렇다면 위의 정의는 g(t)를

g(t)={\begin{cases}t^{2}&{\mbox{if}}\ t\geq 0\\0&{\mbox{otherwise,}}\end{cases}}

로써 정의하고 f 대신 |f|를 취함으로써 따르게 된다.

확률론에 따른 정의[편집]

기댓값이 μ이고 분산이 σ²인 확률 변수 X가 있다고 하자. (이때, 분산은 유한한 값이다) 그러면 어떠한 실수 k > 0에 대해서도 다음 부등식이 성립한다.

\Pr(\left|X-\mu \right|\geq k\sigma )\leq {\frac {1}{k^{2}}}.

k > 1인 경우에만 의미있는 정보를 제공한다.

예제에서처럼, k=√2를 사용하는 것은 값들의 최소한 절반이 (μ − √2 σ, μ + √2 σ)의 범위에 놓여있다는 것을 보여준다.

보통, 이 법칙은 비교적 느슨한 한계를 제공한다. 그러나, 체비쇼프의 부등식에 의하여 제공되는 한계는 일반적으로 (임의의 분포의 변수들에게는 여전히 유효한 상태로 남아있다) 더 향상될 수 없다. 예를 들면, 그 어떠한 k > 1 에 대해서도, 다음 예제는 (여기서 σ = 1/k) 한계에 정확히 들어맞는다.

{\begin{matrix}\Pr(X=-1)&=&1/2k^{2}\\\\\Pr(X=0)&=&1-1/k^{2}\\\\\Pr(X=1)&=&1/2k^{2}\end{matrix}}

이 법칙은 느슨한 한계에도 불구하고 유용할 수 있는데, 그 이유는 이 법칙이 그 어떠한 분포의 확률변수에 대해서도 적용되기 때문이며 분포에 관하여 평균과 분산 이외에 대하여 아는 바가 없을 때에도 이러한 한계들이 계산될 수 있기 때문이다.

체비쇼프의 부등식은 큰 수의 약한 법칙을 증명하기 위하여 사용된다.

응용 예제[편집]

구체적인 예를 들면, 출판물에서의 문서들과 같이 많은 분량의 텍스트를 가지고 있다고 가정하자. 이 문서들이 평균 1000 글자 길이로 200 글자의 표준편차를 가진다는 것을 우리가 알고 있다고 가정하자. 체비쇼프의 부등식으로부터 우리는 모든 문서 중 최소한 75%는 길이가 600에서 1400 글자 (k = 2) 사이라는 것을 추론할 수 있다.

변형: One-sided 체비쇼프 부등식[편집]

A one-tailed variant with k > 0, is

\Pr(X-\mu \geq k\sigma )\leq {\frac {1}{1+k^{2}}}.

체비쇼프 부등식의 one-sided version 은 칸텔리 부등식이라 불리며 Francesco Paolo Cantelli으로부터 기인한다.

증명[편집]

측도론에 따른 증명[편집]

A_t 가 A_t = {x ∈ X | f(x) ≥ t} 로 정의된다고 가정하고, : $1_{A_{t}}$ 가 A_t 집합의 표시 함수라고 가정하자. 그렇다면, 다음을 확인하는 것은 쉬운 일이다

0\leq g(t)1_{A_{t}}\leq g\circ f\,1_{A_{t}}\leq g\circ f,

그러므로,

g(t)\mu (A_{t})=\int _{X}g(t)1_{A_{t}}\,d\mu \leq \int _{A_{t}}g\circ f\,d\mu \leq \int _{X}g\circ f\,d\mu .

원하는 부등식은 위의 부등식을 g(t) 로 나눔으로써 따르게 된다.

확률론에 따른 증명[편집]

마르코프 부등식은 어떤 실수값 확률 변수 Y와 그 어떤 양수 a에 대해서도, Pr(|Y| > a) ≤ E(|Y|)/a가 성립한다는 부등식이다. 마르코프 부등식을 확률 변수 Y = (X − μ)² 에 a = (σk)²에 적용하면 체비쇼프 부등식을 증명할 수 있다.

직접적인 증명도 가능하다. 어떤 이벤트 A에 대하여, I_A를 A의 표시 확률 변수라고 가정하자, 즉 I_A은 A가 발생하면 1이고 아니면 0이다. 그렇다면

\Pr(|X-\mu |\geq k\sigma )=\operatorname {E} (I_{|X-\mu |\geq k\sigma })=\operatorname {E} (I_{[(X-\mu )/(k\sigma )]^{2}\geq 1})

\leq \operatorname {E} \left(\left({X-\mu  \over k\sigma }\right)^{2}\right)={1 \over k^{2}}{\operatorname {E} ((X-\mu )^{2}) \over \sigma ^{2}}={1 \over k^{2}}.

이 직접 증명은 왜 한계가 일반적 경우에서 매우 느슨한지를 보여준다: "≥" 의 좌측에 있는 숫자 1은 "≥" 의 우측의 [(X − μ)/(kσ)]² 의 값이 1을 초과할 때마다 이 값으로 교체된다. 어떤 경우에는 매우 넓은 차이를 두고 1을 초과한다.