とある童話の統計科学(2)

Toaru_Logo

今回は、語の基本的な統計情報についての紹介。


語の統計

まずは各文書の語数とボキャブラリ数(ユニークな語の数)。

Toaru2_1

4文書合わせての総ボキャブラリ数は、11017語であった。

不思議の国のアリスは、完全に子供向けなのか(個人的にはあまりそうは思えないけれど。。。)、ボキャブラリ・語数共に控えめである。クリスマスキャロルは、語数は同程度だが、利用しているボキャブラリは1000語以上多い。low teen手前くらいだろうか。

次に、文書ごとの語の出現確率を示す。横軸は、各文書ごとに出現確率の高い順から語をソートし、その結果のランクを示している。縦軸は、各ランクの出現頻度のlog10である。文書ごとに、各ランクに対応する語は異なることに注意。

Toaru2_2

実はこのプロットから、「出現確率がランクの逆数に比例する」というZip則が概ね成立していることがわかる。適当にチューニングしてみると、出現確率=0.09/ランク、程度になる。どの文書でもあまり変わらない。

Zip則はロングテールの存在を表しており、ランクに対する累積確率を下図のように計算していくと、後ろのランクまで1.0に収束することがない。文書における語の生成は、基本的に疎と言える。

Toaru2_3

ちなみに、累積確率の最初の立ち上がりが非常に早いが、これらは主に情報の少ない機能語(冠詞, 前置詞, etc)が占めている。不思議の国のアリスの場合、語の頻出トップ10は以下である。

  • $(終端記号) 20.2%
  • the 4.8%
  • and 2.5%
  • to 2.1%
  • a 1.8%
  • it 1.7%
  • she 1.6%
  • i 1.6%
  • of 1.5%
  • said 1.3%

文書を特徴づける情報はロングテールに含まれており、連続データと同じ感覚で少数派をネグると痛い目をみる。


次回は、統計モデルn-gramのお話。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA