単語親密度データベースA Japanese Word Familiarity Database

単語親密度データベースについて

単語親密度とは語のなじみ深さを被験者実験により評定したものです。単語親密度は、1から7の間の数値で表されており、大きな数値になるほどなじみ深い語であることを示しています。
NTTでは1995年から単語親密度の調査をはじめ、約8万語の調査結果をまとめたものが1999年にNTTデータベースシリーズ「日本語の語彙特性」第1巻として三省堂から刊行されました。 また、2002年には、第1巻に含まれなかった約3万語の追加調査を実施し、同シリーズの第9巻として刊行されました(いずれも絶版。以下「平成版」と呼びます)。
これらは広く利用されてきましたが、初期の調査から時間が経ち、単語親密度の経年変化の可能性があること、 これまでのデータベースに含まれない語が多く出てきていることなどから、この度、第1巻、第9巻に含まれるすべての語の再調査と、新しい語の追加調査を、 合わせて16万語以上について行い、「令和版単語親密度データベース」としてまとめました。

語彙数推定テストについて

単語親密度データベースを用いてできることの一つに「語彙数の推定」があります。 語彙数の推定では、提示した数十語を知っているかどうかチェックするだけでおおよその語彙数を推定します。
親密度の高い語は多くの人が知っていると考えられる語で、低い語は多くの人は知らない語と考えられます。 そこで、親密度の高い語から低い語まで、何段階かの親密度の語を示して知っているかどうかを確認し、 どの程度の親密度の語まで知っているかによって、語彙数を推定します。
少数の語をチェックするだけで語彙数を推定できるので、調査を受ける側の負担が少なく、簡単に語彙数を測ることができます。 NTTでは平成版をベースとした語彙数推定テストを公開し、多くの方にご利用いただいてきました。ただし、推定できる語彙数の上限は単語親密度データベースのサイズに依存するため、 平成版では7万7千語以上の語彙数は測れませんでした。
今回、令和版単語親密度をベースとして新たに語彙数推定テストを作成し、公開しました (2020.6.4-)。 基盤となる単語親密度データベースの拡充により、推定できる語彙数の上限が平成版より大きく上昇しています。

語彙数推定テスト(公開版)のお試しについて

公開版はこちらのリンクからお試しいただけます。
(Internet Explorer (IE) では動きません。IE以外のブラウザでお試しください) なお、平成版と令和版では推定語彙数が大きく異なる場合があります。
おおむね令和版の方が語彙数が多く推定されます。 これは、基盤となる単語親密度データベースが令和版の方が大きいためです。

参考

関連発表

  • コミュニケーション科学基礎研究所 オープンハウス2020 の研究講演で令和版単語親密度データベースと語彙数推定テストを紹介しました。(2020.6.4)
    講演動画はこちらからオープンハウス2020

  • NTT持株会社ニュースリリースに掲載されました。(2020.6.3)
    報道発表資料

参照文献

令和版単語親密度の調査に関してはこちらを参照してください。

藤田早苗, 小林哲生 (2020)
“単語親密度の再調査と過去のデータとの比較,” 言語処理学会第26回年次大会 (NLP-2020)

小中高校生の語彙数調査に関してはこちらを参照してください。

藤田早苗, 小林哲生, 山田武士, 菅原真悟, 新井庭子, 新井紀子 (2020)
“小・中・高校生の語彙数調査および単語親密度との関係分析,” 言語処理学会第26回年次大会 (NLP-2020)

Page top ←