정보 이득

정보이론과 머신 러닝에서 정보 이득은 쿨백-라이블러 발산(Kullback Leibler Divergence,KLD)의 동의어이다. 그러나 의사 결정 나무의 맥락에서 이 용어는 때때로 상호 정보와 동의어로 사용되기도 하는데, 이것은 상호의존정보와 동의어로 사용되기도 한다. 이 정보는 한 변수의 조건부 분포에서 다른 한 변수의 단일 변수 확률 분포에 대한 쿨백-라이블러 발산의 기댓값이다.

특히, 확률 변수 A가 값 A = a를 취하는 관찰로부터 얻어진 확률 변수 X의 정보 이득은 쿨백-라이블러 발산 $D_{\mathrm {KL} }(p(x|a)\|p(x|I))$ 으로 a가 주어진 x에 대한 사후 분포 $p(x|a)$ 로부터의 x에 대한 사전 확률 $p(x|I)$ 로 표현된다.

정보 이득의 기댓값은 X와 A의 상호의존정보 I(X; A)이다. 즉 무작위 변수 A의 상태를 관찰함으로써 얻어지는 X의 엔트로피 감소이다.

머신 러닝에서 이 개념은 X의 상태를 가장 빠르게 좁히기 위해 조사할 속성의 기본 시퀀스를 정의하는 데 사용할 수 있다. 이러한 시퀀스 (각 단계에서 이전 속성 조사의 결과에 따라 다름)를 의사 결정 트리 라고한다. 일반적으로 상호 정보가 높은 속성은 다른 속성보다 선호되어야 한다.

정의[편집]

일반적으로, 기대되는 정보 이득은 이전 상태에서 주어진 정보를 갖는 상태로 바뀔 때 정보 엔트로피 H의 변화이다:

IG(T,a)=H(T)-H(T|a)

응용[편집]

T

을 각각

({\textbf {x}},y)=(x_{1},x_{2},x_{3},...,x_{k},y)

형식으로 나타내보면,

x_{a}\in vals(a)

는

{\textbf {x}}

와

y

해당 클래스 라벨인

a

번째 속성의 값이다. 속성

a

에 대한 정보 이득은 다음과 같이 엔트로피

H()

로 정의된다.

IG(T,a)=H(T)-\sum _{v\in vals(a)}{\frac {|\{{\textbf {x}}\in T|x_{a}=v\}|}{|T|}}\cdot H(\{{\textbf {x}}\in T|x_{a}=v\})

속성값 각각에 대해 결과 속성에 대한 고유한 분류를 만들 수 있는 경우 상호 의존 정보는 속성에 대한 총 엔트로피와 같다. 이 경우 전체 엔트로피에서 빼는 상대 엔트로피는 0이다.

단점[편집]

정보 획득이 일반적으로 속성의 관련성을 결정하는 좋은 방법이지만 완벽한 것은 아니다. 주목할 만한 문제는 많은 양의 고유한 값을 가질 수 있는 속성에 정보 이득이 적용될 때 발생한다. 예를 들어 비즈니스 고객을 설명하는 일부 데이터에 대한 의사 결정 트리를 작성한다고 가정한다면, 정보 획득은 종종 어떤 속성이 가장 관련이 있는지를 결정하는 데 사용되므로 트리의 루트 근처에서 테스트 할 수 있다. 입력 속성 중 하나는 고객의 신용 카드 번호일 수 있다. 이 속성은 각 고객을 고유하게 식별하기 때문에 상호 정보가 많지만 의사 결정 트리에 포함하지 않는다. 신용 카드 번호를 기반으로 고객을 취급하는 방법을 결정하는 것은 그렇지 않은 고객에게 일반화하기 어렵다. (과잉 적합, overfitting)

때때로 정보 이득 비율이 대신 사용된다. 이는 다수의 고유한 값을 갖는 속성을 고려하지 않고 의사 결정 트리를 편향시킨다. 그러나 정보 값이 매우 낮은 속성은 부당한 이점을 얻는 것으로 보인다.

같이 보기[편집]

정보 엔트로피

참고 자료[편집]

톰 마이클 미첼(Mitchell, Tom M.) (1997). 《Machine Learning》. The Mc-Graw-Hill Companies, Inc. ISBN 0070428077.