こんにちは、きちえです。
今回は真面目にいつものプログラミング実装記事ではなく、理論系のお話です。
読みたいところをタップ
情報量とは
直感的にいうと
聞いて非常に驚く情報 → 情報量が大きい
聞いても驚かない情報 → 情報量が小さい
情報利得という定義
(情報利得) = (事前情報の不確実さ) – (事後の不確実さ)
と定義されています。
例えば、最近ニュースなものを取り上げると、TOKIOの山口達也メンバーです。
一般人がJKにキスしてもそこまで大きくはならないが、山口達也メンバーがしたらここまで大きくなる理由をこの情報利得という概念から考えてみましょう。
山口達也メンバーがJKにキスをしたらここまで大きくなる理由を情報利得という概念から考える
山口達也メンバーがJKにキス→ほぼ起きることがないので、「事前情報の不確実さ」は無限大(∞)
それに対して、NHKのニュースで報道→信頼性が高いため、事後の不確実さがほぼゼロ(0)
よって\(情報利得 = ∞-0 = ∞\)
なので非常に驚く情報になるということ。
一般人がJKにキスをした場合
一般人がJKにキス→まあまあ1000人に1人くらいは起きそうなので、「事前情報の不確実さ」は\(1000\)
それに対して、NHKのニュースで報道→信頼性が高いため、事後の不確実さがほぼゼロ(0)
よって\(情報利得 = 1000-0 = 1000\)
無限大にと1000を比べると前者が以上に大きいため、山口達也メンバーがキスをすると聞いて非常に驚く情報になるので、非常に大きなニュースになってしまう。
情報量では0と無限大は扱いにくいからシャノンが情報量という概念を提案
今まで無限大という量が出てきましたが、はっきりとした数値ではないため、非常に扱いにくいです。
ここで登場するのが、シャノン(Shannon)が確率統計の数学的な手法を用いて、情報量という概念を提案しました。[1948年]
自己情報量
生起確率(起こる確率)が\(p(a)\)の事象\(a\)が実際起こったとき、これを知ることにより得られる情報量を\(I(a)\)とすると、
\(I(a)∝\frac{1}{p(a)}\)
となります。
∝という記号は比例の意味を表しますので、つまり、情報量は「I(a)」は生起確率「p(a)」に反比例します。
これは情報量が驚きの量と考えれば当たり前のことで、当たる確率の低い「p(a)が小さい」ことが起きれば驚くし、当たりやすい「p(a)が大きい」ことが起きればあまり驚かないというわけです。
これをまとめると、
\(
\begin{cases}
p(a)が小→I(a)が大(驚き大)\\
p(a)が大→I(a)が小(驚き小)
\end{cases}
\)
しかしこのままでは扱いずらい
上記のように定義ができましたが、このままでは数学的にも直感的にの取り扱いが不便です。
何故ならば
\(p(a)=1 ならば I(a)=0\)
とはならないからです。
必ず起きる事象が起きた時の驚きはないですから\(I(a)=0\)となるのが自然ですし、あまり起きない事象が起きた時の驚きは無限大に近くなってしまいます。つまり範囲が、[0から∞]なのです。先ほども述べたように無限大という量は扱いにくいので、右辺の対数を取って
\(
\begin{eqnarray}
I(a) = \log\frac{1}{p(a)} \\
= -\log p(a)
\end{eqnarray}
\)
とします。このように対数で定義したI(a)を事象aの自己情報量と呼びます。
対数の底は、今回のような情報理論では通常は2を用います。そして情報量の単位はビット(bit)を用います。
つまり、\(I(a) = -\log{2} p(a) \mathrm{[bit]}\)
自己情報量の例題
チケットの当選確率が
\( \frac{1}{64} \) (約1.5%)だとしましょう。このチケットの当選ないしは不当選の事象の持つ自己情報量を求めてみます。
I(不当選)=-\log_2 \frac{63}{64}=-\log_2 63+\log_2 2^6=-5.977+6=0.0227\mathrm{[bit]}
\)
となります。つまり、この場合当選確率が低いので当選しないと、0.0227ビットの情報量しかないのに対し、当選すれば6ビットもの情報になるのです。
コメントを残す