NTT データベースシリーズ

「日本語の語彙特性」第I期の概要

<収録した特性値>

本データベース第I期には以下に示す主観的特性値を中心とした 種々の特性値が収録されています。 第I期分に収録した特性値は、三省堂新明解国語辞典の全ての見出し語, および新明解漢和辞典とJIS X 0208-1990をベースにしています。

  1. 単語親密度(約7万語について、音声呈示、文字呈示、音声文字同時呈示の3種)
  2. 単語表記の妥当性(約7万語に対する可能な表記全20万項目)
  3. 単語アクセントの妥当性(約8万語に対する可能なアクセント全10万項目)
  4. *本データベースには親密度評定実験に用いた全音声ファイルが付属

  5. 品詞等の言語情報(約7万語に対する品詞、モーラ数)
  6. 文字の特性(JIS X 0208, 約7000文字)
  7. 文字の読みと単語の対応データ

<特長>

収録した単語および文字の数が非常に多い点, 特性値の種類が豊富である点, および特性値が相互に参照可能である点が本データベースの大きな特長です。 これまで日本語においては,このような特長をもったデータベースが存在しませんでした。


<形態>

特性値は書籍に掲載するのみでなく、付属のCD−ROMにも収録しました。 この付属CD−ROMは、簡易検索プログラム (図1を参照)によって各特性値にアクセス可能なデータベース形式のファイ ルを提供するとともに、 各研究者が自由にデータを扱うことを可能にするために全データ をテキストファイルでも提供しています。



図1 簡易検索プログラムの画面例


<参考>

NTTデータベースに関する三省堂ホームページ