語彙数推定テスト解説
1.はじめに
この語彙数推定テストは、NTTデータベースシリーズ「日本語の語彙特性」第1巻の単語親密度データベースを用いた簡単でかつ精度の高い推定テストです。2.単語親密度を用いた語彙数推定方法
辞書を用いて語彙数を求める方法で最も単純な方法は、辞書中の全単語を1つ1つ知っているかどうかをテストする方法です。しかし、この方法ではあまりにも時間がかかりすぎます。そこで、時間を短縮するためによく行われる方法は、辞書からランダムに選んだ少数の単語のセットを使う方法です。この方法では、各単語を知っているかどうかをテストし、知っていると答えた単語のセット中における比率を求め、その比率を辞書の単語数にかけ算して語彙数を推定します。3.語彙数推定法
3.1 テストの作成
このテストに使用した単語は、NTTデータベースシリーズ「日本語の語彙特性」単語親密度データベースから、単語親密度を基準に選択されたものです。実際には、単語を親密度順にならべ、目標とするテスト項目数になるように、ある一定間隔で単語を取り出しました。3.2 単語親密度境界の決定
全体としてみれば高親密度単語は知っている場合がほとんどであり、低親密度単語は知らない場合がほとんどとなるはずです。しかし、単語親密度の高い順に単語を並べたとき、だんだん単語親密度が下がるにつれて知らない単語が出現する可能性が高くなりますが、たとえある単語親密度において知らない単語が出現したとしても、もっと単語親密度の低い単語を知っている可能性があります。つまり、知っている単語と知らない単語の単語親密度境界付近では、回答に多少のばらつきがあると考えられます。したがって、知っている単語と知らない単語の親密度境界を定めることはそれほど簡単ではありません。3.3 語彙数の推定
上で求めた単語親密度境界以上の単語の数をデータベース中で数えあげて推定語彙数としました。4.問題点
境界の決定の困難さは既に述べたとおりです。いろいろな決定方法 がありますし、どの方法が実際の語彙数によく合うかは残念ながらまだ判明していません。また、この推定方法に限ったことではありませんがは、推定される語彙数は常に基となる辞書(またはデータベース)に依存します。つまりここで推定される語彙の最大数は、辞書(またはデータベース)の語数すなわち約7万語であり、それ以上にはなりません。文献
Amano, S., and Kondo, T. (1998). ``Estimation of mental
lexicon size with word familiarity database,'' Proceedings of International
Conference on Spoken Language Processing, Vol. 5, 2119-2122.
天野成昭 (1996). ``頭の中に単語はいくつある?'' 情報処理 37, 351-354.
FLASH 1999年12月14日号 p.16-17. (11月30日発売)
読売新聞: にほん語観察ノート(井上ひさし)1999年11月21日
朝日新聞(夕刊) 1999年11月6日
日本工業新聞 1999年10月27日
日経産業新聞 1999年9月30日