정보 엔트로피

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색

정보 엔트로피(영어: information entropy)는 클로드 섀넌이 제안한 개념으로 신호나 사건에 있는 정보의 양을 엔트로피의 개념을 빌려 설명한 것이다. 정보 이론에서 엔트로피는 어떤 확률변수의 불확실성(영어: uncertainity)을 측정하는 것이다. 섀넌 엔트로피라고도 불리는 엔트로피는, 어떤 메시지가 포함하고 있는 정보 양의 기대 값을 나타내며 주로 비트(bit) 단위로 표시한다. 이러한 컨셉은 클로드 섀넌이 1948년에 출판한 논문인 “통신의 수학적 이론(A Mathematical Theory of Communication)”[1] 에서 처음 소개되었다.

의미[편집]

어떤 결과값의 발생 가능도가 작아질수록 그 정보량은 커지고, 더 자주 발생할수록 그 정보량은 작아진다.

앞면과 뒷면이 나올 확률이 같은 동전을 던졌을 경우의 정보의 양, 즉 엔트로피를 생각해 보자. 이는 H,T 두가지의 경우만을 나타내므로 엔트로피는 1이다. 다시 생각하면 우리에게 1비트만 주어진다면 동전 던지기시행의 결과값을 나타낼 수 있다는 것이다. 한편 공정하지 않는 동전의 경우에는 특정면이 나올 확률이 상대적으로 더 높기 때문에 엔트로피는 1보다 작아진다. 우리가 예측해서 맞출 수 있는 확률이 더 높아졌기 때문에 정보의 양, 즉 엔트로피는 더 작아진 것이다. (동전던지기의 경우에는 앞,뒤면이 나올 확률이 1/2로 같은 동전이 엔트로피가 가장 크다.) 그러면 여기서 정보 엔트로피를 불확실성(영어: uncertainity)과 같은 개념이라고 인식할 수 있다. 불확실성이 높아질수록 정보의 양은 더 많아지고 엔트로피는 더 커진다.

정의[편집]

이산랜덤변수 X가 각각 확률값 {x1, ..., xn}을 가질때 엔트로피 H는 다음과 같이 표현될 수 있다.

H(X)  =  \operatorname{E}((I(X)).

여기서 E는 기댓값을 나타내고 I는 X의 정보량을 의미한다.

I(X) 또한 랜덤변수인데, 만약 p가 X의 확률 질량 함수를 나타낸다면 엔트로피는 다음과 같이 표현할 수 있다.

H(X) = \sum_{i=1}^n {p(x_i)\,I(x_i)} =\sum_{i=1}^np(x_i)\log_b \left(\frac{1}{p(x_i)}\right) = -\sum_{i=1}^n {p(x_i) \log_b p(x_i)},

사건 x의 엔트로피는 x의 모든 가능한 결과값 i에 대해 i의 발생 확률 값인 p(i)과 그 확률의 역수의 로그 값의 곱의 합이 된다. 이 정의는 이산 사건 대신에 적분을 사용하여 임의의 연속 확률 분포에 대해 확장할 수 있다.

위의 식에서 지수 b는 로그에서 사용되는 지수를 의미한다. 일반적으로 지수 b의 값으로서 2나 오일러의 수 e, 또는 10이 많이 사용된다. b=2인 경우에는 엔트로피의 단위가 비트로 사용되고 ,b=e일땐 네트(nat), 그리고 b=10인 경우에는 디짓(digit)이 사용된다. [2]

어떤 i에 대하여 pi =0 인 경우에는 앞서 정의된 수식에 따라서 0 logb 0 이 되므로 다음과 같은 한계값을 정의할 수 있다.

\lim_{p\to0+}p\log p = 0.

예시[편집]

동전 던지기에서 결과값의 엔트로피 H(X)를 나태낸 그래프이다. X축이 동전의 공정한 정도 (Pr(X=1))를 나타내고 Y축이 대응되는 엔트로피의 크기를 나타낸다. 여기서는 공전한 동전 (Pr(X=1)=0.5)을 사용한 동전 던지기 결과값을 전송할때 가장 큰 엔트로피인 1비트가 필요함을 확인할 수 있다.

앞에서 언급한 동전던지기 사례를 다시 생각해 보자. 만약 우리가 동전의 특정 면이 나올 확률을 알고 있다고 가정해 보자. (반드시 앞, 뒷면이 나올 확률이 같을 필요는 없다.) 동전 던지기를 시행했을 때 결과값의 엔트로피는 공정한 동전일 때 가장 높게 나온다. (앞, 뒷면이 나올 확률이 각각 1/2로 같을 경우이다.) 이러한 경우가 불확실성을 가장 극대화 시키고 결과값을 예상하기가 가장 어렵다는 것을 의미한다. 이때의 동전던지기 결과값은 1비트에 해당하는 정보를 가지게 된다.

그러나 만약 우리가 이 동전이 공정하지 않다면, 즉 앞면이 나올 확률이 p, 뒷면이 나올 확률을 q로 이미 알고 있다면 불확실성은 더 떨어질 것이다. 이는 동전을 던질 때마다 특정한 면이 나올 확률이 더 높기 때문이다. 이때의 불확실성의 감소는 엔트로피의 감소로 정량화될 수 있다. 공정하지 않은 동전 던지기 결과값의 엔트로피는 1비트의 정보 보다 적다고 해석할 수 있다.

이와 같은 경우 중 가장 극도의 사례는 ‘양면을 가지고 있으나 절대로 뒷면이 나오지 않는 동전’을 사용할 경우이다. 이때에는 불확실성이 전혀 없으므로 (항상 앞면이 나오므로) 엔트로피는 0이된다. 즉 이러한 동전 던지기의 시행결과는 아무런 정보도 전달하지 않는 것이다.

공리[편집]

가산성[편집]

n개의 결과값 \{ x_i : i = 1, \ldots , n\}을 갖는 랜덤변수 X\,에대하여, 불확실성을 측정하는 섀논 엔트로피 H(X)\,는 다음과 같이 정의된다.


   \displaystyle
   H(X)
   = 
   - \sum_{i=1}^np(x_i)\log_b p(x_i)

(1)

여기서 p(x_i)\,는 결과값 x_i\,의 확률질량함수를 나타낸다.

수식(1)을 이해하기 위해서, 먼저 n\,개의 가능한 사건결과값 \left\{ x_i : i = 1 , \ldots , n \right\}을 동일한 확률 p(x_i) = 1 / n\,로 갖는 경우를 생각해 보자. 이러한 경우의 예시로는, 1부터 n가지의 면(즉, n\,개의 면)을 갖는 공정한 주사위 던지기 사건을 생각해 볼 수 있을 것이다. 이러한 n개의 결과값에 대한 불확실성은 다음과 같이 정의할 수 있다.


   \displaystyle
   u = \log_b (n).

(2)

로그함수는 독립적인 불확실성에 가산성을 제공하는데 사용된다. 예를 들어 첫 번째 n개의 결과값을 가질 수 있는 주사위에 이어서 m개의 결과값 \left\{ y_j : j = 1 , \ldots , m \right\}을 갖을 수 있는 주사위를 던진다고 가정해보자. 그러면 mn\, 개의 가능한 결과값 \left\{ x_i y_j : i = 1 , \ldots , n , j = 1 , \ldots , m \right\}을 가질 수 있을 것이다. 이러한 mn개의 결과값을 갖는 집합이 불확실성은 다음과 같이 표현될 수 있다.


   \displaystyle
   u = \log_b (nm) = \log_b (n) + \log_b (m).

(3)

따라서 두 개의 서로다른 주사위 던지기를 시행의 불확실성은 첫 번째 주사위 던지기의 불확실성 \log_b (n)\,에 두 번째 주사위 던지기 불확실성 \log_b (m)\,을 더한 값과 같다.

오직 한 개의 주사위(n개의 결과를 갖는 첫 번째 것)만 던지는 시행으로 돌아가보면, 각 시행의 확률이 1/n\,으로 일정한 균등분표를 이루기 때문에 다음과 같이 작성할 수 있다.


   \displaystyle
   u_i
   = \log_b (n)
   = \log_b ((1/n)^{-1})
   = - \log_b (p(x_i)),
   \ \forall i \in \{1, \ldots , n\}.

만약 불균등확률 질량 함수( 연속랜덤변수의 경우는 확률 밀도 함수)를 갖는 경우리면 다음과 같이 정리할 수 있다.


   \displaystyle
   u_i
   :=
   - \log_b (p(x_i))

(4)

이는 자기정보(영어: self-information; surprisal)로 불리는 것으로, 결과값 x_i\,에 대한 확률 p(x_i)\,가 작을 수록 (즉, p(x_i) \rightarrow 0이면), 불확실성은 더 높아진다. (즉, u_i \rightarrow \infty)

평균 불확실성 \langle u \rangle은 다음과 같이 얻어질 수 있다. (여기서 \langle \cdot \rangle은 평균연산자를 의미한다.)


   \displaystyle
   \langle u \rangle
   =
   \sum_{i=1}^{n}
   p(x_i)
   u_i
   =
   -
   \sum_{i=1}^{n}
   p(x_i)
   \log_b (p(x_i))

(5)

위의 식은 식(1)에서 정의된 엔트로피 H(X)\,에서도 사용되었는데, 이는 엔트로피란 단어와 불확실성이란 단어가 혼용될 수 있는 이유를 말해준다.[3]

조건부 엔트로피[편집]

두 개의 사건 XY가 각각 xiyj를 취할 때의 조건부 엔트로피는 다음과 같이 정의할 수 있다.

 H(X|Y)=\sum_{i,j}p(x_{i},y_{j})\log\frac{p(y_{j})}{p(x_{i},y_{j})}

여기서 p(xi,yj)X=xi , Y=yj가 될 확률을 나타낸다. 이 값은 Y값을 알고 있을때 X값의 랜덤한 정도의 양으로서 이해될 수 있다. 예를들어, 6면을 가진 주사위의 엔트로피 H(주사위)를 구하는데, 그 주사위가 1,2,3만 나오도록 조작되어있다는 사실을 알고 있다면, 이것의 엔트로피는 H(die: 주사위값이 1또는2또는3이 나온다)와 같을 것이다.

열역학적 엔트로피와의 관계[편집]

정보이론에서 ‘엔트로피’라는 단어를 사용하게 된 이유는 섀넌의 공식이 열역학적 엔트로피의 공식과 상당부분 비슷하기 때문이다. 열역학적 엔트로피 S로서 가장 많이 사용되는 통계열역학에서는 기브스의 엔트로피를 다음과 같이 정의한다.

S = - k_B \sum p_i \ln p_i \,

여기서 kB볼츠만 상수를, 그리고 pi는 미시적인 상태의 확률을 의미한다. 기브스엔트로피는 1872년 볼츠만의 연구업적을 뒤이어 조사이어 윌러드 기브스에 의하여 1878년에 정의되었다. 기브스 엔트로피는 또한 거의 변화 없이 양자물리학에서의 노만 엔트로피로도 변형되는데 이는 1927년 존 폰 노이만에의해 정의 소개되었으며 다음과 같이 정의된다

S = - k_B \,\,{\rm Tr}(\rho \ln \rho) \,

여기서 ρ로 는 양자역학 시스템에서의 밀도 행렬을 나타내며 Tr은 행적을 나타낸다.

일상생활의 실용적인 수준에서는 정보이론의 엔트로피와 열역학엔트로피의 관계가 그리 깊지는 않다. 물리학자나 화학자는 자발적으로 초기상태에서 멀어지는 시스템에서의 엔트로피 ‘변화’에 더욱 관심이 있다. 이는 열역학 제2법칙에 부합하는 내용으로, 불변하는 확률분포에 집중하는 정보엔트로피와는 포커싱이 사뭇 다르다.

그러나 여러 학문분야에 걸쳐 종합적인 분석을 해보면, 열역학적 엔트로피와 정보 엔트로피 사이에서는 연결고리가 만들어 질 수 있다. 사실 1957년 제니스(영어: Jaynes)의 의견에 의하면, 열역학은 새넌의 정보이론의 ‘응용’으로 간주될 수 있다.[4] 열역학에서의 엔트로피는 시스템의 더욱 자세한 미시적인 상태를 정의하기 위해 더 필요한 섀넌 정보 양의 추정으로 해석될 수 있다. 이는 고전열역학의 미시변수란 개념으로는 설명될 수 없는 것이었다. 예를 들면 시스템에 열을 가하는 것은 열역학적 엔트로피를 증가하는 것이다. 왜냐하면 이것은 미세 상태의 가능한 가짓수를 증가시키기 때문이다. 제임스 클러크 맥스웰은 이론적으로 시스템의 열역학적 엔트로피를 개별적인 분자 상태에 대한 정보를 사용함으로써 감소시킬 수 있다고 주장하였다. 이는 맥스웰의 도깨비란 이름으로 널리 알려져 있다. 그러나 란다우어(Landauer)와 그의 동료들은 총 엔트로피는 줄지 않는다는 것을 보이며 이 역설을 해결하였다.

다양한 분야에서 활용된 엔트로피 개념[편집]

  • 아이작 아시모프의 단편 소설 《마지막 질문》.
  • 제레미 리프킨의 책 《엔트로피》. 엔트로피에 대한 그릇된 해석으로 유명하다.[5]
  • 헨리 애덤스의 책 《엔트로피와 생명》. 19세기 미국 역사가 헨리 애덤스는 기계의 힘인 동력과 힘의 쇠퇴인 엔트로피 개념을 포함한 정교한 역사 이론을 주창하였다. 애덤스는 인간 사회가 진보하는 것이 아니라 어쩔 수 없이 쇠퇴하는 것을 자연 상태에서 엔트로피가 커지는 것에 결합하여 설명하였다.
  • 마법소녀 마도카 마카카의 극장판. 여기서는 '잘못' 사용된 예시로써 악명이 높다. 큐베가 이 극장판에서 '엔트로피가 감소하고 있다'고 하지만 실제로 감소하려면 엄청나게 큰 시간이 필요하다.

같이 보기[편집]

참고문헌[편집]

  1. C.E. Shannon, 'A Mathematical Theory of Communication' [1].
  2. Schneider, T.D, Information theory primer with an appendix on logarithms, National Cancer Institute, 14 April 2007.
  3. Jaynes, E.T. (1957년 May월). Information Theory and Statistical Mechanics. 《Physical Review》 106 (4): 620–630. doi:10.1103/PhysRev.106.620. Bibcode1957PhRv..106..620J.
  4. Realated Paper: Vesselin I. Dimitrov, 'On Shannon-Jaynes Entropy and Fisher Information'.
  5. 제레미 리프킨, 엔트로피

바깥 고리[편집]