정보 엔트로피(또는 섀넌 엔트로피,Shannon Entropy)는 정보 이론에서 자주 사용되는 개념이며, 열역학에서의 엔트로피와 크게 다르지 않은 개념이다.
각 사건의 정보량은 그 기댓값, 또는 평균이 섀넌 엔트로피인 확률변수를 형성한다.
엔트로피의 단위는 정의에 사용된 로그의 밑이 무엇인지에 따라 섀넌(shannon), 내트(nat) 또는 하틀리(hartley)를 사용한다.
정보량(information content)은 확률에 반비례한다.
엔트로피는 '어떤 상태에서의 불확실성', 또는 이와 동등한 의미로 '평균 정보량'을 의미한다.
정의
확률변수 $X:P\rightarrow E$가 분포 $f:E\rightarrow \mathbb{R}$을 따른다고 하자.
그렇다면 $X$의 정보 엔트로피 $H\left (X\right )$는 다음과 같다.
$H\left ( X \right ) = -E\left ( \textrm{ln}f \right ) = -\int_{E}^{}f\left ( x \right )\textrm{ln}\left ( f\left ( x \right ) \right )dx$
만약 표본 공간 $E$가 이산공간
$E = \left \{ x_{1},...,x_{n}\right \}$
이라면, 르베그 적분은 합이 되며, 따라서 정보 엔트로피는 다음과 같다.
$H\left ( X \right )=-\sum_{i}^{}f_{i}\textrm{ln}f_{i}$
간혹, 위 정의에서 자연로그 대신 이진로그 $\textrm{log}_{2}$를 사용하는 경우가 있다. 이 경우 정보 엔트로피의 단위는 비트이고, 자연로그의 경우에는 단위 내트(nat)를 사용한다.
출처
ko.wikipedia.org/wiki/%EC%A0%95%EB%B3%B4_%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC