정보 엔트로피

위키백과, 우리 모두의 백과사전.
이동: 둘러보기, 검색
2 섀넌의 엔트로피: 2 개의 공정한 동전을 던질 때 정보 엔트로피는 발생 가능한 모든 결과의 개수에 밑이 2 인 로그를 취한 것과 같다. 2 개의 동전을 던지면 4 가지 결과가 발생할 수 있고, 엔트로피는 2 비트가 된다. 일반적으로 정보 엔트로피는 모든 발생가능한 결과의 평균적인 정보가 된다.

정보 이론에서 시스템은 송신자, 채널, 수신자를 이용하여 모형화 한다. 송신자는 채널을 통해 전달되는 메시지를 만들어낸다. 채널은 특정한 방식을 통해 메시지를 변경한다. 수신자는 어떤 메시지가 보내진 것인지 추론하고자 한다. 이 맥락에서 정보 엔트로피(또는 섀넌 엔트로피)는 각 메시지에 포함된 정보의 기댓값(평균)이다. '메시지'는 어떤 흐름의 정보에 대해서도 모형화 할 수 있다.

좀 더 기술적인 관점에서 보면 정보는 발생 가능한 사건이나 메시지의 확률분포의 음의 로그로 정의할 수 있다. 각 사건의 정보량은 그 기댓값, 또는 평균이 섀넌 엔트로피인 확률변수를 형성한다. 엔트로피의 단위는 정의에 사용된 로그의 밑이 무엇인지에 따라 섀넌(shannon), 내트(nat) 또는 하틀리(hartely)를 사용한다. 단, 섀넌의 경우 보통 비트(bit)로 표현한다.

확률분포의 로그는 엔트로피의 단위로 사용하기에 매우 유용한데 이는 독립적인 소스(source)들에 대해 그 값을 더할 수 있기 때문이다. 예를 들어 동전을 1개 던지면 엔트로피는 1 섀넌이고, m 개의 동전을 던질 때는 m 섀넌이다. n 이 2의 거듭제곱일 때, 일반적으로 n 개의 값 중 하나를 취하는 변수를 표현하기 위해서는 log2(n) 비트가 필요하다. 모든 값의 발생 확률이 동일하면, (섀넌으로 표현된) 엔트로피는 비트의 개수와 동일하게 된다. 비트의 개수와 섀넌이 동일한 경우는 모든 결과의 발생 확률이 동일한 경우로 한정된다. 만약 하나의 사건이 다른 사건보다 발생할 확률이 높다면 그 사건에 대한 관측이 제공할 수 있는 정보는 적다. 반대로 희귀한 사건을 관측하면 더 많은 정보를 얻을 수 있다. 확률이 낮은 사건에 대한 관측은 덜 발생할 것이므로 순 효과는 불균등하게 분포한 자료로부터 얻어진 log2(n) 보다 작은 엔트로피가 된다. 하나의 사건이 확실하게 일어나는 경우라면 엔트로피는 0 이 된다. 섀넌 엔트로피는 소스(source)의 확률분포가 알려져 있을 때 이 모든 고려사항을 수치화한다. 관측된 사건들의 의미(메시지의 의미)는 엔트로피를 정의할 때 중요하지 않다. 엔트로피는 특정한 사건이 일어날 확률만을 고려함으로써 사건의 배후에 존재하는 확률분포에 대한 정보를 캡슐화할뿐 사건 자체의 의미는 포함하지 않는다.

일반적으로 엔트로피는 무질서도 또는 불확실성을 가리킨다. 섀넌 엔트로피의 개념은 클로드 섀넌이 자신의 1948년 논문 "수학적 통신 이론"에서 도입하였다.[1] 섀넌 엔트로피는 정보 소스(source)를 무손실 인코딩 또는 압축할 때 가능한 최상의 평균 길이의 절대적 한계치를 제공해준다. 레니 엔트로피는 섀넌 엔트로피를 일반화한 것이다.

의미[편집]

어떤 결과값의 발생 가능도가 작아질수록 그 정보량은 커지고, 더 자주 발생할수록 그 정보량은 작아진다.

앞면과 뒷면이 나올 확률이 같은 동전을 던졌을 경우의 정보의 양, 즉 엔트로피를 생각해 보자. 이는 H,T 두가지의 경우만을 나타내므로 엔트로피는 1이다. 다시 생각하면 우리에게 1비트만 주어진다면 동전 던지기시행의 결과값을 나타낼 수 있다는 것이다. 한편 공정하지 않는 동전의 경우에는 특정면이 나올 확률이 상대적으로 더 높기 때문에 엔트로피는 1보다 작아진다. 우리가 예측해서 맞출 수 있는 확률이 더 높아졌기 때문에 정보의 양, 즉 엔트로피는 더 작아진 것이다. (동전던지기의 경우에는 앞,뒤면이 나올 확률이 1/2로 같은 동전이 엔트로피가 가장 크다.) 그러면 여기서 정보 엔트로피를 불확실성(영어: uncertainity)과 같은 개념이라고 인식할 수 있다. 불확실성이 높아질수록 정보의 양은 더 많아지고 엔트로피는 더 커진다.

한편, 정보 엔트로피가 커지는것은 역시 변수(불확실성)가 증가하는 것을 의미하므로, 변수를 제어함으로서 불확실성이 줄어드는 것은 결국 정보 획득을 의미하게 된다.

따라서, 정보 획득을 증가시켜 불확실성을 감소시키는것은 변수가 줄어드는것으로 볼수있는데 이것은 결과적으로 엔트로피의 크기를 감소시는 정보 이득과 관계있다.[2]

정의[편집]

확률변수 가 분포 를 따른다고 하자. 그렇다면 정보 엔트로피 는 다음과 같다.

만약 표본 공간 가 이산공간

이라면, 르베그 적분은 합이 되며, 따라서 정보 엔트로피는 다음과 같다.

간혹, 위 정의에서 자연로그 대신 이진로그 를 사용하는 경우가 있다. 이 경우 정보 엔트로피의 단위는 비트이고, 자연로그의 경우에는 단위 내트(nat)를 사용한다.

조건부 엔트로피[편집]

두 확률변수 가 주어졌고, 그 확률 분포 가 주어졌다고 하자. 그렇다면, 가 주어졌을 때 조건부 엔트로피(영어: conditional entropy)는 다음과 같다.

조건부 엔트로피는 항상 음이 아니며, Y값을 알고 있을 때 X값의 무작위한 정도의 양으로 해석될 수 있다. 예를 들어, 6면을 가진 주사위의 엔트로피 H(주사위)를 구하는데, 그 주사위가 1,2,3만 나오도록 조작되어있다는 사실을 알고 있다면, 이것의 엔트로피는 H(주사위 값이 1 또는 2 또는 3)와 같게 된다.

[편집]

동전 던지기에서 결과값의 엔트로피 H(X)를 나타낸 그래프. X축이 동전의 공정한 정도 (Pr(X=1))를 나타내고 Y축이 대응되는 엔트로피의 크기를 나타낸다. 여기서는 공정한 동전 (Pr(X=1)=0.5)을 사용한 동전 던지기 결과값을 전송할때 가장 큰 엔트로피인 1비트가 필요함을 확인할 수 있다.

앞에서 언급한 동전던지기 사례를 다시 생각해 보자. 만약 우리가 동전의 특정 면이 나올 확률을 알고 있다고 가정해 보자. (반드시 앞, 뒷면이 나올 확률이 같을 필요는 없다.) 동전 던지기를 시행했을 때 결과값의 엔트로피는 공정한 동전일 때 가장 높게 나온다. (앞, 뒷면이 나올 확률이 각각 1/2로 같을 경우이다.) 이러한 경우가 불확실성을 가장 극대화 시키고 결과값을 예상하기가 가장 어렵다는 것을 의미한다. 이때의 동전던지기 결과값은 1비트에 해당하는 정보를 가지게 된다.

그러나 만약 우리가 이 동전이 공정하지 않다면, 즉 앞면이 나올 확률이 p, 뒷면이 나올 확률을 q로 이미 알고 있다면 불확실성은 더 떨어질 것이다. 이는 동전을 던질 때마다 특정한 면이 나올 확률이 더 높기 때문이다. 이때의 불확실성의 감소는 엔트로피의 감소로 정량화될 수 있다. 공정하지 않은 동전 던지기 결과값의 엔트로피는 1비트의 정보 보다 적다고 해석할 수 있다.

이와 같은 경우 중 가장 극도의 사례는 양면을 가지고 있으나 절대로 뒷면이 나오지 않는 동전을 사용할 경우이다. 이때에는 불확실성이 전혀 없으므로 (항상 앞면이 나오므로) 엔트로피는 0이다. 즉, 이러한 동전 던지기의 시행결과는 아무런 정보도 전달하지 않는다.

균등분포[편집]

정보 엔트로피의 정의를 이해하기 위해서, 이산균등분포의 엔트로피를 계산해 보자. 표본 공간이 총 n개의 서로 다른 값들로 이루어진다면, 확률 질량 함수

이고, 따라서 엔트로피는

이다.

로그 함수는 독립적인 불확실성에 가산성을 제공하는데 사용된다. 예를 들어, 크기 의 이산 표본 공간과 크기 의 이산 표본 공간에서, 서로 독립이며 균등분포를 따르는 두 확률변수를 동시에 측정할 경우, 그 총 엔트로피는

이 된다. 즉, 서로 독립인 두 확률변수의 엔트로피는 각 확률변수의 엔트로피의 합과 같다.

열역학적 엔트로피와의 관계[편집]

정보이론에서 ‘엔트로피’라는 단어를 사용하게 된 이유는 섀넌의 공식이 열역학적 엔트로피의 공식과 상당부분 비슷하기 때문이다.[3] 열역학적 엔트로피 S로서 가장 많이 사용되는 통계열역학에서는 기브스의 엔트로피를 다음과 같이 정의한다.

여기서 kB볼츠만 상수를, 그리고 pi는 미시적인 상태의 확률을 의미한다. 기브스엔트로피는 1872년 볼츠만의 연구업적을 뒤이어 조사이어 윌러드 기브스에 의하여 1878년에 정의되었다. 기브스 엔트로피는 또한 거의 변화 없이 양자물리학에서의 노만 엔트로피로도 변형되는데 이는 1927년 존 폰 노이만에의해 정의 소개되었으며 다음과 같이 정의된다

여기서 ρ로 는 양자역학 시스템에서의 밀도 행렬을 나타내며 Tr은 행적을 나타낸다.

일상생활의 실용적인 수준에서는 정보이론의 엔트로피와 열역학엔트로피의 관계가 그리 깊지는 않다. 물리학자나 화학자는 자발적으로 초기상태에서 멀어지는 시스템에서의 엔트로피 ‘변화’에 더욱 관심이 있다. 이는 열역학 제2법칙에 부합하는 내용으로, 불변하는 확률분포에 집중하는 정보엔트로피와는 포커싱이 사뭇 다르다.

그러나 여러 학문분야에 걸쳐 종합적인 분석을 해보면, 열역학적 엔트로피와 정보 엔트로피 사이에서는 연결고리가 만들어질 수 있다. 사실 1957년 제인스(영어: Jaynes)의 의견에 의하면, 열역학은 섀넌의 정보 이론의 ‘응용’으로 간주될 수 있다.[4] 열역학에서의 엔트로피는 시스템의 더욱 자세한 미시적인 상태를 정의하기 위해 더 필요한 섀넌 정보 양의 추정으로 해석될 수 있다. 이는 고전열역학의 미시변수란 개념으로는 설명될 수 없는 것이었다. 예를 들면 시스템에 열을 가하는 것은 열역학적 엔트로피를 증가하는 것이다. 왜냐하면 이것은 미세 상태의 가능한 가짓수를 증가시키기 때문이다. 제임스 클러크 맥스웰은 이론적으로 시스템의 열역학적 엔트로피를 개별적인 분자 상태에 대한 정보를 사용함으로써 감소시킬 수 있다고 주장하였다. 이는 맥스웰의 도깨비란 이름으로 널리 알려져 있다. 그러나 란다우어(Landauer)와 그의 동료들은 총 엔트로피는 줄지 않는다는 것을 보이며 이 역설을 해결하였다.

다양한 분야에서 활용된 엔트로피 개념[편집]

  • 아이작 아시모프의 단편 소설 《마지막 질문》.
  • 제레미 리프킨의 책 《엔트로피》. 엔트로피에 대한 그릇된 해석으로 유명하다.[5]
  • 헨리 애덤스의 책 《엔트로피와 생명》. 19세기 미국 역사가 헨리 애덤스는 기계의 힘인 동력과 힘의 쇠퇴인 엔트로피 개념을 포함한 정교한 역사 이론을 주창하였다. 애덤스는 인간 사회가 진보하는 것이 아니라 어쩔 수 없이 쇠퇴하는 것을 자연 상태에서 엔트로피가 커지는 것에 결합하여 설명하였다.
  • 마법소녀 마도카 마기카의 극장판. 여기서는 '잘못' 사용된 예시로 악명이 높다.

참고 문헌[편집]

  1. Shannon, Claude E. (July–October 1948). “A Mathematical Theory of Communication”. 《Bell System Technical Journal》 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x.  (PDF, archived from here)
  2. (엔트로피 & 정보 이득,Entropy & Information Gain)https://deeplearning4j.org/kr/eigenvector#entropy
  3. Jaynes, E.T. (1957년 5월). “Information Theory and Statistical Mechanics” (PDF). 《Physical Review》 (영어) 106 (4): 620–630. Bibcode:1957PhRv..106..620J. doi:10.1103/PhysRev.106.620. 
  4. Realated Paper: Vesselin I. Dimitrov, 'On Shannon-Jaynes Entropy and Fisher Information'.
  5. 제레미 리프킨, 엔트로피

같이 보기[편집]

바깥 고리[편집]