정보 엔트로피, Information Entropy
Statistics

정보 엔트로피, Information Entropy

정보 엔트로피(또는 섀넌 엔트로피,Shannon Entropy)는 정보 이론에서 자주 사용되는 개념이며, 열역학에서의 엔트로피와 크게 다르지 않은 개념이다. 

 

각 사건의 정보량은 그 기댓값, 또는 평균이 섀넌 엔트로피인 확률변수를 형성한다. 


엔트로피의 단위는 정의에 사용된 로그의 밑이 무엇인지에 따라 섀넌(shannon), 내트(nat) 또는 하틀리(hartley)를 사용한다.

어떤 결과값의 발생 가능도가 작아질수록 그 정보량은 커지고, 더 자주 발생할수록 그 정보량은 작아진다.

정보량(information content)은 확률에 반비례한다.

 

엔트로피는 '어떤 상태에서의 불확실성', 또는 이와 동등한 의미로 '평균 정보량'을 의미한다.

 

정의 

확률변수 $X:P\rightarrow E$가 분포 $f:E\rightarrow \mathbb{R}$을 따른다고 하자.

그렇다면 $X$의 정보 엔트로피 $H\left (X\right )$는 다음과 같다.

 

$H\left ( X \right ) = -E\left ( \textrm{ln}f \right ) = -\int_{E}^{}f\left ( x \right )\textrm{ln}\left ( f\left ( x \right ) \right )dx$ 

 

만약 표본 공간 $E$가 이산공간

$E = \left \{ x_{1},...,x_{n}\right \}$

이라면, 르베그 적분은 합이 되며, 따라서 정보 엔트로피는 다음과 같다.

$H\left ( X \right )=-\sum_{i}^{}f_{i}\textrm{ln}f_{i}$

 

간혹, 위 정의에서 자연로그 대신 이진로그 $\textrm{log}_{2}$를 사용하는 경우가 있다. 이 경우 정보 엔트로피의 단위는 비트이고, 자연로그의 경우에는 단위 내트(nat)를 사용한다.

 

출처
ko.wikipedia.org/wiki/%EC%A0%95%EB%B3%B4_%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC