語彙数推定テスト解説

1.はじめに

 この語彙数推定テストは、NTTデータベースシリーズ「日本語の語彙特性」第1巻の単語親密度データベースを用いた簡単でかつ精度の高い推定テストです。
 単語親密度とは、その単語がどの程度「なじみ」があると感じられるかの主観的評定値です。NTTデータベースシリーズ「日本語の語彙特性」第1巻の単語親密度データベースには、新明解国語辞典第4版の見出し語約7万語に対する親密度評定値が収録されています。この親密度は、20代前半を中心とした32名が7段階評定(1:なじみがない、7:なじみがある)を行った結果の平均値です。

2.単語親密度を用いた語彙数推定方法

 辞書を用いて語彙数を求める方法で最も単純な方法は、辞書中の全単語を1つ1つ知っているかどうかをテストする方法です。しかし、この方法ではあまりにも時間がかかりすぎます。そこで、時間を短縮するためによく行われる方法は、辞書からランダムに選んだ少数の単語のセットを使う方法です。この方法では、各単語を知っているかどうかをテストし、知っていると答えた単語のセット中における比率を求め、その比率を辞書の単語数にかけ算して語彙数を推定します。
 しかしこの方法では、ランダムに選んだ単語がたまたま非常に易しい単語ばかりであったり、逆に難しい単語ばかりであったりする可能性が0ではなく、推定の精度があまり高くないという問題があります。結局、この精度を上げるためには、テストする単語数を多くする以外になありません。しかし単語数を多くすると時間がかかってしまうというジレンマに陥ります。
 このような精度と時間の問題を解決するために、我々は単語親密度を用いて語彙数を推定する方法を考案しました。
 単語親密度は、その単語に対する「なじみ」の程度を表わします。単語親密度はその単語がどの程度よく知られているかと相関が高いと言われています。つまり、単語親密度が高いほどよく知られている単語なのです。したがって、ある人にとってみれば、ある一定以上の単語親密度を持つ単語はほとんどすべて知っている単語であり、それ未満の単語親密度を持つ単語はほとんど知らないといえます。
 そして、ある一定以上の単語親密度を持つ単語の数はNTTデータベースシリーズ「日本語の語彙特性」単語親密度データベースから容易に計算することができます。ですから、この知っている単語と知らない単語の境界の単語親密度を求めることができれば、個々人の語彙数を推定することが可能になるのです。

3.語彙数推定法

3.1 テストの作成

 このテストに使用した単語は、NTTデータベースシリーズ「日本語の語彙特性」単語親密度データベースから、単語親密度を基準に選択されたものです。実際には、単語を親密度順にならべ、目標とするテスト項目数になるように、ある一定間隔で単語を取り出しました。
 この方法は、先に述べた辞書からランダムに単語を選択する語彙数推定方法と一見似ていますが、単純な比率から全体の語彙を推定するのではなく、単語親密度の分布に従がった語彙数の推定を行う点で優れています。

3.2 単語親密度境界の決定

 全体としてみれば高親密度単語は知っている場合がほとんどであり、低親密度単語は知らない場合がほとんどとなるはずです。しかし、単語親密度の高い順に単語を並べたとき、だんだん単語親密度が下がるにつれて知らない単語が出現する可能性が高くなりますが、たとえある単語親密度において知らない単語が出現したとしても、もっと単語親密度の低い単語を知っている可能性があります。つまり、知っている単語と知らない単語の単語親密度境界付近では、回答に多少のばらつきがあると考えられます。したがって、知っている単語と知らない単語の親密度境界を定めることはそれほど簡単ではありません。
 本方法では、このばらつきを考慮に入れるため、単語親密度順に判断をしたときに知らない単語が二つ以上連続する単語の親密度と、知っている単語が二つ以上連続する単語の親密度との中間点を単語親密度の境界としました。
 なお、この他にも正規分布やロジスティック分布を使って単語親密度の境界を求める方法も可能ですが、多少話しが難しくなるのでここでは説明を省きます。

3.3 語彙数の推定

 上で求めた単語親密度境界以上の単語の数をデータベース中で数えあげて推定語彙数としました。

4.問題点

 境界の決定の困難さは既に述べたとおりです。いろいろな決定方法 がありますし、どの方法が実際の語彙数によく合うかは残念ながらまだ判明していません。また、この推定方法に限ったことではありませんがは、推定される語彙数は常に基となる辞書(またはデータベース)に依存します。つまりここで推定される語彙の最大数は、辞書(またはデータベース)の語数すなわち約7万語であり、それ以上にはなりません。
 また、ここで用いた新明解国語辞典第四版では、固有名詞や複合語などがあまり収録されていません。したがってここで推定された語彙数は実際にあなたが知っている単語数よりも少ない可能性があります。

文献

Amano, S., and Kondo, T. (1998). ``Estimation of mental lexicon size with word familiarity database,'' Proceedings of International Conference on Spoken Language Processing, Vol. 5, 2119-2122.
天野成昭 (1996). ``頭の中に単語はいくつある?'' 情報処理 37, 351-354.
FLASH 1999年12月14日号 p.16-17. (11月30日発売)
読売新聞: にほん語観察ノート(井上ひさし)1999年11月21日
朝日新聞(夕刊) 1999年11月6日
日本工業新聞 1999年10月27日
日経産業新聞 1999年9月30日