平均情報量

26.4. 平均情報量

英文の文章の文字の出現頻度に着目して,平均情報量を求めたり,圧縮率との関係を調べてみましょう.

ここでは簡単のため,文字はアルファベット 26文字とします.大文字小文字は区別せず,また,数字や記号等は無視します.

26.4.1. 文字のカウント

日本国憲法前文の英文版のアルファベットの出現頻度を測定してみましょう.

... このページを読む

26.4.2. 集計

文字の出現回数のデータをもとに,頻度や情報量を計算します.

... このページを読む

26.4.3. グラフ描画と並べ替え

ヒストグラムをかいてみましょう.

... このページを読む

26.4.4. ファイルの圧縮と展開

ファイルの可逆圧縮を体験しましょう.可逆ですので,元の情報は損なわれることなく,復元することが可能です.つまり,元の情報を適切に符号化することによって,ファイルサイズを小さくするものです.

複数の方法があり,ファイル名の拡張子 zip や tar.gz などと対応します.

... このページを読む

26.4.5. 課題

別の文章で平均情報量を計算してみましょう.

... このページを読む

日本語テキストと文字コード previous page 26.4. 平均情報量 next page 文字のカウント
このサイトは開発版の はいぱーワークブック です.