NTT データベースシリーズ
「日本語の語彙特性」第II期の概要
<収録した特性値>
本データベース第II期には以下に示す客観的特性値が収録されています。
これらの客観的特性値は、1985年から1998年までの14年 間に刊行された朝日新聞朝夕刊(東京版)の約91万6千記事を高速形態素解析シ ステム「すもも」によって形態素解析して得た延べ約2億9千万単語をベー スにしています。
<特長>
本データベースの大きな特長は, ベースとした新聞記事の量が極めて多いことです。 その量は, これまでの日本語における同種のデータベースに比べ10倍以上の規模です。 世界的に見てもこれほど大量の新聞記事に基づいたデータベースは例がありません。
<形態>
特性値は書籍に掲載するのみでなく、付属のC D−ROMにも収録しました。 この付属CD−ROMは、簡易検索プログラム によって各特性値にアクセス可能なデータベース形式のファイ ルを提供するとともに、 各研究者が自由にデータを扱うことを可能にするために全データ をテキストファイルでも提供しています。
<参考>
NTTデータベースに関する三省堂ホームページ