최대 엔트로피 원리: 두 판 사이의 차이

내용 삭제됨 내용 추가됨

인라인

2022년 7월 30일 (토) 09:26 판

최대 엔트로피 원리는 시스템에 대한 현재 지식 상태를 가장 잘 나타내는 확률 분포가 가장 큰 엔트로피를 갖는 분포라는 것이다.

이것을 표현하는 또 다른 방법: 확률 분포 함수에 대해 정확하게 언급된 이전 데이터 또는 테스트 가능한 정보를 가져온다. 이전 데이터를 인코딩할 모든 시행 확률 분포 세트를 고려하라는 것이다. 이 원칙에 따르면 정보 엔트로피가 최대인 분포가 최선의 선택이다.

최대 엔트로피 분포는 데이터의 실제 분포에 대해 가장 적은 가정을 하는 분포이므로 최대 엔트로피의 원리는 오컴의 면도날의 적용이라고 볼 수 있다.

개요

대부분의 실제 사례에서 언급된 이전 데이터 또는 테스트 가능한 정보는 해당 확률 분포 와 관련된 보존된 양 (일부 모멘트 함수의 평균값) 집합으로 제공된다. 이것이 최대 엔트로피 원리가 통계적 열역학에서 가장 자주 사용되는 방식이다. 또 다른 가능성은 확률 분포의 일부 대칭 을 규정하는 것이다. 보존된 양과 해당 대칭 그룹 간의 동등성은 최대 엔트로피 방법에서 테스트 가능한 정보를 지정하는 이 두 가지 방법에 대한 유사한 동등성을 의미한다.

다양한 방법, 특히 통계 역학 및 논리적 추론 으로 얻은 확률 할당의 고유성과 일관성을 보장하려면 최대 엔트로피 원리도 필요하다.

최대 엔트로피 원리는 다양한 형태의 이전 데이터 를 사용하는 데 있어 우리의 자유를 분명히 한다. 특별한 경우로 균일한 사전 확률 밀도(라플라스의 무차별 원칙, 때로는 불충분한 이유의 원칙이라고도 함)가 채택될 수 있다. 따라서 최대 엔트로피 원리는 고전 통계의 일반적인 추론 방법을 보는 대안적인 방법일 뿐만 아니라 이러한 방법의 중요한 개념 일반화를 나타낸다.

일반 언어에서 최대 엔트로피의 원리는 인식적 겸손 또는 최대 무지의 주장을 표현한다고 말할 수 있다. 선택된 분포는 명시된 이전 데이터 이상으로 정보를 가장 적게 받는 분포, 즉 명시된 이전 데이터 이상으로 가장 무지를 인정하는 분포이다.

애플리케이션

최대 엔트로피의 원리는 일반적으로 추론 문제에 두 가지 방식으로 적용된다.

최대 엔트로피의 원리는 베이즈 추론을 위한 사전 확률 분포를 얻기 위해 자주 사용된다. 제인스는 최대 엔트로피 분포가 가장 정보가 적은 분포를 나타낸다고 주장하면서 이 접근 방식을 강력하게 옹호했다. ^[1] 많은 양의 문헌이 현재 최대 엔트로피 사전 및 채널 코딩 과의 연결을 이끌어내는 데 전념하고 있다. ^[2] ^[3] ^[4] ^[5]

최대 엔트로피는 급진적 확률 에 대한 충분한 업데이트 규칙이다. 리처드 제프리의 확률 운동학은 최대 엔트로피 추론의 특별한 경우이다. 그러나 최대 엔트로피는 그러한 모든 충분한 업데이트 규칙을 일반화한 것은 아니다. ^[6]

대안으로, 원칙은 종종 모델 사양에 대해 호출된다. 이 경우 관찰된 데이터 자체가 테스트 가능한 정보로 가정된다. 이러한 모델은 자연어 처리 에 널리 사용된다. 이러한 모델의 예로는 로지스틱 회귀 (logistic regression)가 있으며, 이는 독립적인 관찰에 대한 최대 엔트로피 분류기에 해당한다.

최대 엔트로피 원리의 주요 응용 프로그램 중 하나는 이산 및 연속 밀도 추정 이다. ^[7] ^[8] 지원 벡터 머신 추정기와 유사하게 최대 엔트로피 원리는 2차 계획법 문제에 대한 솔루션을 요구할 수 있으므로 최적의 밀도 추정기로 희소 혼합 모델을 제공한다. 이 방법의 중요한 장점 중 하나는 밀도 추정에 사전 정보를 통합할 수 있다는 것이다. ^[9]

선형 제약 조건이 있는 최대 엔트로피 분포에 대한 일반 솔루션

이산적 상황

우리는 { x ₁, x ₂ ,..., x _n }의 값을 취하는 수량 x 에 대한 몇 가지 테스트 가능한 정보 I 를 가지고 있다. 우리는 이 정보가 기능 f _k 의 기대치에 대한 m 제약 조건의 형태를 갖는다고 가정한다. 즉, 모멘트 부등식/등식 제약 조건을 충족하기 위해 확률 분포가 필요하다.

\sum _{i=1}^{n}\Pr(x_{i})f_{k}(x_{i})\geq F_{k}\qquad k=1,\ldots ,m.

어디 $F_{k}$ 관찰 가능하다. 우리는 또한 확률 밀도의 합이 1이 되도록 요구한다. 이는 항등 함수에 대한 원시적 제약으로 볼 수 있고 제약을 제공하는 1과 동일한 관찰 가능 항목으로 볼 수 있다.

\sum _{i=1}^{n}\Pr(x_{i})=1.

이러한 부등식/평등 제약 조건에 따라 최대 정보 엔트로피가 있는 확률 분포는 다음과 같은 형식이다. ^[7]

\Pr(x_{i})={\frac {1}{Z(\lambda _{1},\ldots ,\lambda _{m})}}\exp \left[\lambda _{1}f_{1}(x_{i})+\cdots +\lambda _{m}f_{m}(x_{i})\right],

일부 $\lambda _{1},\ldots ,\lambda _{m}$ . 깁스 분포 라고도 한다. 정규화 상수는 다음과 같이 결정된다.

Z(\lambda _{1},\ldots ,\lambda _{m})=\sum _{i=1}^{n}\exp \left[\lambda _{1}f_{1}(x_{i})+\cdots +\lambda _{m}f_{m}(x_{i})\right],

일반적으로 파티션 함수 라고 한다. ( Pitman-Koopman 정리 는 제한된 차원의 충분한 통계 를 허용하기 위한 샘플링 분포의 필요 충분 조건은 최대 엔트로피 분포의 일반적인 형태를 가져야 한다는 것이다. )

λ _k 매개변수는 라그랑주 승수이다. 등식 제약 조건의 경우 값은 비선형 방정식의 해에서 결정된다.

F_{k}={\frac {\partial }{\partial \lambda _{k}}}\log Z(\lambda _{1},\ldots ,\lambda _{m}).

부등식 제약 조건의 경우 라그랑주 승수는 선형 제약 조건이 있는 볼록 최적화 프로그램의 솔루션에서 결정된다. ^[7] 두 경우 모두 폐쇄형 해 가 없으며 라그랑주 승수의 계산에는 일반적으로 수치적 방법 이 필요하다.

연속 케이스

연속 분포 의 경우 Shannon 엔트로피는 이산 확률 공간에 대해서만 정의되므로 사용할 수 없다. 대신 Edwin Jaynes (1963, 1968, 2003)는 상대 엔트로피 ( 미분 엔트로피 참조)와 밀접한 관련이 있는 다음 공식을 제공했다.

H_{c}=-\int p(x)\log {\frac {p(x)}{q(x)}}\,dx

여기서 Jaynes가 "불변 측정"이라고 불렀던 q ( x ) 는 이산 점의 제한 밀도에 비례한다. 지금은 q 가 알려져 있다고 가정한다. 솔루션 방정식이 주어진 후에 더 논의할 것이다.

밀접하게 관련된 양, 상대 엔트로피는 일반적으로 q 에서 p 의 Kullback-Leibler 발산 으로 정의된다(때로는 혼란스럽게도 이것의 음수로 정의됨). Kullback으로 인해 이를 최소화하는 추론 원칙 을 최소 차별 정보 원칙 이라고 한다.

실수 의 일부 간격 에서 값을 취하는 수량 x 에 대한 몇 가지 테스트 가능한 정보 I 가 있다(아래의 모든 적분은 이 간격 위에 있음). 우리는 이 정보가 함수 f _k 의 기대치에 대한 m 제약 조건의 형태를 갖는다고 가정한다. 즉, 우리는 확률 밀도 함수가 부등식(또는 순수 같음) 모멘트 제약 조건을 충족해야 한다.

\int p(x)f_{k}(x)\,dx\geq F_{k}\qquad k=1,\dotsc ,m.

어디 $F_{k}$ 관찰 가능하다. 또한 확률 밀도를 1로 통합해야 하는데, 이는 항등 함수에 대한 원시적 제약으로 볼 수 있고 제약 조건을 제공하는 1과 동일한 관찰 가능 변수로 간주될 수 있다.

\int p(x)\,dx=1.

p(x)={\frac {1}{Z(\lambda _{1},\dotsc ,\lambda _{m})}}q(x)\exp \left[\lambda _{1}f_{1}(x)+\dotsb +\lambda _{m}f_{m}(x)\right]

파티션 함수는

Z(\lambda _{1},\dotsc ,\lambda _{m})=\int q(x)\exp \left[\lambda _{1}f_{1}(x)+\dotsb +\lambda _{m}f_{m}(x)\right]\,dx.

이산의 경우와 마찬가지로 모든 모멘트 구속조건이 동일한 경우 $\lambda _{k}$ 매개변수는 비선형 방정식 시스템에 의해 결정된다.

F_{k}={\frac {\partial }{\partial \lambda _{k}}}\log Z(\lambda _{1},\dotsc ,\lambda _{m}).

부등식 모멘트 제약 조건이 있는 경우 라그랑주 승수는 볼록 최적화 프로그램의 솔루션에서 결정된다. ^[8]

최대 엔트로피의 원리에 대한 정당화

최대 엔트로피 원칙의 지지자들은 다음 두 가지 주장을 포함하여 여러 가지 방법으로 확률을 할당하는 데 엔트로피의 사용을 정당화한다. 이러한 주장은 베이즈 확률을 주어진 대로 사용하므로 동일한 가정을 따릅니다.

$m$ 사이의 상호 배타적인 명제의 이산 확률 분포 를 고려하면, 가장 유익한 분포는 명제 중 하나가 참인 것으로 알려졌을 때 발생한다. 이 경우 정보 엔트로피는 0과 같다. 가장 정보가 적은 분포는 명제 중 하나를 다른 명제보다 선호할 이유가 없을 때 발생한다. 이 경우 유일한 합리적인 확률 분포는 균일하고 정보 엔트로피는 가능한 최대 값과 같을 것이다.

우리의 정보가 허용하는 최대 엔트로피를 가진 분포를 사용하기로 선택함으로써 우리는 가능한 가장 정보가 없는 분포를 선택한다는 주장이 나온다. 엔트로피가 낮은 분포를 선택하는 것은 우리가 소유하지 않은 정보를 가정하는 것이다. 따라서 최대 엔트로피 분포가 유일한 합리적인 분포이다. 지배적 측정에 대한 솔루션의 의존성이 사실상 자의적이기 때문에 접근 방식에 대한 비판의 원천이다.

각주

↑ Jaynes, E. T. (1968). “Prior Probabilities” (PDF or PostScript). 《IEEE Transactions on Systems Science and Cybernetics》 4 (3): 227–241. doi:10.1109/TSSC.1968.300117.
↑ Clarke, B. (2006). “Information optimality and Bayesian modelling”. 《Journal of Econometrics》 138 (2): 405–429. doi:10.1016/j.jeconom.2006.05.003.
↑ Soofi, E.S. (2000). “Principal Information Theoretic Approaches”. 《Journal of the American Statistical Association》 95 (452): 1349–1353. doi:10.2307/2669786. JSTOR 2669786. MR 1825292.
↑ Bousquet, N. (2008). “Eliciting vague but proper maximal entropy priors in Bayesian experiments”. 《Statistical Papers》 51 (3): 613–628. doi:10.1007/s00362-008-0149-9.
↑ Palmieri, Francesco A. N.; Ciuonzo, Domenico (2013년 4월 1일). “Objective priors from maximum entropy in data classification”. 《Information Fusion》 14 (2): 186–198. doi:10.1016/j.inffus.2012.01.012.
↑ Skyrms, B (1987). “Updating, supposing and MAXENT”. 《Theory and Decision》 22 (3): 225–46. doi:10.1007/BF00134086.
↑ ^가 ^나 ^다 Botev, Z. I.; Kroese, D. P. (2008). “Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data”. 《Methodology and Computing in Applied Probability》 10 (3): 435. doi:10.1007/s11009-007-9057-z. 인용 오류: 잘못된 <ref> 태그; "BK08"이 다른 콘텐츠로 여러 번 정의되었습니다
↑ ^가 ^나 Botev, Z. I.; Kroese, D. P. (2011). “The Generalized Cross Entropy Method, with Applications to Probability Density Estimation” (PDF). 《Methodology and Computing in Applied Probability》 13 (1): 1–27. doi:10.1007/s11009-009-9133-7. 인용 오류: 잘못된 <ref> 태그; "BK11"이 다른 콘텐츠로 여러 번 정의되었습니다
↑ Kesavan, H. K.; Kapur, J. N. (1990). 〈Maximum Entropy and Minimum Cross-Entropy Principles〉. Fougère, P. F. 《Maximum Entropy and Bayesian Methods》. 419–432쪽. doi:10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.

인용 오류: <references> 안에 정의된 "Jaynes1988"이라는 이름을 가진 <ref> 태그가 위에서 사용되고 있지 않습니다.
인용 오류: <references> 안에 정의된 "Jaynes2003"이라는 이름을 가진 <ref> 태그가 위에서 사용되고 있지 않습니다.

인용 오류: <references> 안에 정의된 "Druihlet2007"이라는 이름을 가진 <ref> 태그가 위에서 사용되고 있지 않습니다.

참고문헌

Bajkova, A. T. (1992). “The generalization of maximum entropy method for reconstruction of complex functions”. 《Astronomical and Astrophysical Transactions》 1 (4): 313–320. Bibcode:1992A&AT....1..313B. doi:10.1080/10556799208230532.
Fornalski, K.W.; Parzych, G.; Pylak, M.; Satuła, D.; Dobrzyński, L. (2010). “Application of Bayesian reasoning and the Maximum Entropy Method to some reconstruction problems” (PDF). 《Acta Physica Polonica A》 117 (6): 892–899. Bibcode:2010AcPPA.117..892F. doi:10.12693/APhysPolA.117.892.
Giffin, A. and Caticha, A., 2007, Updating Probabilities with Data and Moments
Guiasu, S.; Shenitzer, A. (1985). “The principle of maximum entropy”. 《The Mathematical Intelligencer》 7 (1): 42–48. doi:10.1007/bf03023004.
Harremoës, P.; Topsøe (2001). “Maximum entropy fundamentals”. 《Entropy》 3 (3): 191–226. Bibcode:2001Entrp...3..191H. doi:10.3390/e3030191.
Jaynes, E. T. (1963). 〈Information Theory and Statistical Mechanics〉. Ford, K. 《Statistical Physics》. New York: Benjamin. 181쪽.
Jaynes, E. T., 1986 (new version online 1996), "Monkeys, kangaroos and $N$ ", in Maximum-Entropy and Bayesian Methods in Applied Statistics, J. H. Justice (ed.), Cambridge University Press, Cambridge, p. 26.
Kapur, J. N.; and Kesavan, H. K., 1992, Entropy Optimization Principles with Applications, Boston: Academic Press. ISBN 0-12-397670-7 ISBN 0-12-397670-7
Kitamura, Y., 2006, Empirical Likelihood Methods in Econometrics: Theory and Practice, Cowles Foundation Discussion Papers 1569, Cowles Foundation, Yale University.
Lazar, N (2003). “Bayesian empirical likelihood”. 《Biometrika》 90 (2): 319–326. doi:10.1093/biomet/90.2.319.
Owen, A. B., 2001, Empirical Likelihood, Chapman and Hall/CRC. ISBN 1-58-488071-6 ISBN 1-58-488071-6.
Schennach, S. M. (2005). “Bayesian exponentially tilted empirical likelihood”. 《Biometrika》 92 (1): 31–46. doi:10.1093/biomet/92.1.31.
Uffink, Jos (1995). “Can the Maximum Entropy Principle be explained as a consistency requirement?” (PDF). 《Studies in History and Philosophy of Modern Physics》 26B (3): 223–261. Bibcode:1995SHPMP..26..223U. doi:10.1016/1355-2198(95)00015-1. 2006년 6월 3일에 원본 문서 (PDF)에서 보존된 문서.

[1] Jaynes, E. T. (1968). “Prior Probabilities” (PDF or PostScript). 《IEEE Transactions on Systems Science and Cybernetics》 4 (3): 227–241. doi:10.1109/TSSC.1968.300117.

[2] Clarke, B. (2006). “Information optimality and Bayesian modelling”. 《Journal of Econometrics》 138 (2): 405–429. doi:10.1016/j.jeconom.2006.05.003.

[3] Soofi, E.S. (2000). “Principal Information Theoretic Approaches”. 《Journal of the American Statistical Association》 95 (452): 1349–1353. doi:10.2307/2669786. JSTOR 2669786. MR 1825292.

[4] Bousquet, N. (2008). “Eliciting vague but proper maximal entropy priors in Bayesian experiments”. 《Statistical Papers》 51 (3): 613–628. doi:10.1007/s00362-008-0149-9.

[5] Palmieri, Francesco A. N.; Ciuonzo, Domenico (2013년 4월 1일). “Objective priors from maximum entropy in data classification”. 《Information Fusion》 14 (2): 186–198. doi:10.1016/j.inffus.2012.01.012.

[6] Skyrms, B (1987). “Updating, supposing and MAXENT”. 《Theory and Decision》 22 (3): 225–46. doi:10.1007/BF00134086.

[BK08-7] 가 ^나 ^다 Botev, Z. I.; Kroese, D. P. (2008). “Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data”. 《Methodology and Computing in Applied Probability》 10 (3): 435. doi:10.1007/s11009-007-9057-z. 인용 오류: 잘못된 <ref> 태그; "BK08"이 다른 콘텐츠로 여러 번 정의되었습니다

[BK11-8] 가 ^나 Botev, Z. I.; Kroese, D. P. (2011). “The Generalized Cross Entropy Method, with Applications to Probability Density Estimation” (PDF). 《Methodology and Computing in Applied Probability》 13 (1): 1–27. doi:10.1007/s11009-009-9133-7. 인용 오류: 잘못된 <ref> 태그; "BK11"이 다른 콘텐츠로 여러 번 정의되었습니다

[9] Kesavan, H. K.; Kapur, J. N. (1990). 〈Maximum Entropy and Minimum Cross-Entropy Principles〉. Fougère, P. F. 《Maximum Entropy and Bayesian Methods》. 419–432쪽. doi:10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]