データベース第II期の概要(別紙２ー２)

NTT データベースシリーズ

「日本語の語彙特性」第II期の概要

＜収録した特性値＞

本データベース第II期には以下に示す客観的特性値が収録されています。

これらの客観的特性値は、1985年から1998年までの14年間に刊行された朝日新聞朝夕刊（東京版）の約91万6千記事を高速形態素解析システム「すもも」によって形態素解析して得た延べ約2億9千万単語をベースにしています。

＜特長＞

本データベースの大きな特長は, ベースとした新聞記事の量が極めて多いことです。その量は, これまでの日本語における同種のデータベースに比べ10倍以上の規模です。世界的に見てもこれほど大量の新聞記事に基づいたデータベースは例がありません。

＜形態＞

特性値は書籍に掲載するのみでなく、付属のＣＤ−ＲＯＭにも収録しました。この付属ＣＤ−ＲＯＭは、簡易検索プログラムによって各特性値にアクセス可能なデータベース形式のファイルを提供するとともに、各研究者が自由にデータを扱うことを可能にするために全データをテキストファイルでも提供しています。

＜参考＞