NTT データベースシリーズ

「日本語の語彙特性」第II期の概要

<収録した特性値>

本データベース第II期には以下に示す客観的特性値が収録されています。

  1. 単語出現頻度(約34万単語)
  2. 文字出現頻度(JIS X 0208, 約7000文字)

これらの客観的特性値は、1985年から1998年までの14年 間に刊行された朝日新聞朝夕刊(東京版)の約91万6千記事を高速形態素解析シ ステム「すもも」によって形態素解析して得た延べ約2億9千万単語をベー スにしています。


<特長>

本データベースの大きな特長は, ベースとした新聞記事の量が極めて多いことです。 その量は, これまでの日本語における同種のデータベースに比べ10倍以上の規模です。 世界的に見てもこれほど大量の新聞記事に基づいたデータベースは例がありません。


<形態>

特性値は書籍に掲載するのみでなく、付属のC D−ROMにも収録しました。 この付属CD−ROMは、簡易検索プログラム によって各特性値にアクセス可能なデータベース形式のファイ ルを提供するとともに、 各研究者が自由にデータを扱うことを可能にするために全データ をテキストファイルでも提供しています。


<参考>

NTTデータベースに関する三省堂ホームページ