パターン対辞書 (Valency Dictionary)について

(H13.10.5. Group 内談話会用:外部からは見れないリンクがあります)

[0] 目次

  1. パターン対辞書とは何か?
  2. パターン対辞書の内容
    特徴, 種類, 構成, 所在, 登録数, 検索, 詳細
  3. ALT以外のValency Dictionary との比較
    COMLEX, Word Net, EVCA, Jing&McKeown's, ALT-J/E

[1] パターン対辞書とは何か?

単語同士の対応だけでなく、どのようなパターンで使われたならどのようなパ ターンで翻訳するか、ということを登録した辞書です。

例)
普通の日英辞書:
「読む」→"read","chant","recite","perceive","see through","see"
(ALT-J/E 日英対照辞書から)。

パターン対辞書:

  1. N1:主体) が (N2:抽象物,精神)を読む → N1 read N2
  2. N1:主体) が (N2:)を読む → N1 predict N2
  3. N1:主体) が (N2:抽象) を (N3:詩歌)に読む → N1 compose N3 on N2
N1,N2,N3...というのは です。 N1は主語になる(主格)、N2は目的語になる(目的格)、N3は「を」格以外の対象を表す、 などのように決まっています。
この色の部分は、 日本語語彙大系のカテゴリで、このカテゴリに含まれる語がくれば そのパターンが成立します。
この色の部分は、語が制約条件です。 つまりその語がきたときだけパターンが成立します。

例) 「彼は票を読んだ。」という文章の翻訳を考えます。
形態素解析結果と係り受け解析結果は以下のようになります。

;; 形態素結果表示
1. 彼(1710)/は(7530)
2. 票(1100)/を(7430)
3. 読ん(2374,読む)/だ(7226)/。([P]0110)

;; 係り受け解析結果
1     2     3
彼は  票を  読んだ。
  │    │  ↑
  │    格係┤
  格係───┤
ここでパターン対辞書がない場合、
"He read the votes."と訳すか、"He chanted the votes."と訳すか、 "He recited the votes."と訳すか、、、 「読む」の訳語として適切な語がどれか分かりません。 とりあえず、一番最初にでてくる訳語を使用して、 "He read the votes."と訳すことになります。

パターン対辞書を利用した場合、
彼(1710)は主体の下のカテゴリに含まれ、 主格なのでN1、 票(1100)はそのまま、 目的格なのでN2
上の例のパターン2に一致することが分かります。 この結果、"He predicted the votes." と訳すことになります。
;; 意味解析結果
US : u_sent_1  PID="540346-00"
       時制  :  (1 3 5)  過去  完結相  デフォルト
       様相  :  ((だ p1) アルゴた)
       PID  :  540346-00
   |-- PRED : pred_1
   |            主用言    :  読む
   |-- CASE : case_1
   |            修飾属性      :  N1
   |            マッチ格助詞  :  が
   |            入力助詞表現  :  は
   |        |-- NP : np_1
   |               |-- N : 彼
   |-- CASE : case_2
                修飾属性      :  N2
                マッチ格助詞  :  を
                入力助詞表現  :  を
            |-- NP : np_2
                   |-- N : 票
このように、 パターン対辞書は日本語解析の部分で使われ、多義解消(どのパターンに当て はまるかを選ぶことで多義の解消ができます)と同時に訳語選択を行います。
社言Gには、日英機械翻訳システム "ALT-J/E" 用に作られたパターン対辞書が あります。
next

[2] パターン対辞書の内容

  1. 特徴
    1. 各パターンにユニークなID(PID)が振られています。
    2. 見出しは日本語です。
    3. 一つの日本語に対して複数のパターンが登録されていることがあります。
      日本語の使い方の違いから、複数にわかれている場合と、 日本語の使い方には有意差がないようでも英語の使い方で複数に わかれている場合があります。
    詳しくは、比較のところで。
    next
  2. 種類
    1. 一般パターン辞書:
      例) 「読む」
    2. 専門パターン辞書:専門用語
      例) (N1:人,論理)が(N2:数量,情報)を符号化する
    3. 駄文パターン辞書:
      例) 晴れ
    4. 慣用表現辞書:慣用表現が載っています。 が、一般パターンとの垣根が低くなってきています(らしい)。
      例) (N1:主体) が (N2:主体)へ,に お世辞を言う
    next
  3. 構成
    1. インデックスファイル : フラグ類など
    2. 日本語パターン辞書 : 「読む」の例では
      「(N1:主体) が (N2:抽象物,精神) を 読む」 の部分。
    3. 2. に対応する英語パターン辞書:登録には使用するが、最終的には3.4.を利用。
      N1 read N2」 の部分。
    4. 2. に対応する新英語パターン辞書:肉の部分(flesh)。
    5. 新英語パターン構造辞書:骨の部分(skeleton)。複数のパターンで共有します。
    4.5.があわさって、一つの英語パターンを構成します。
    next
  4. 所在
    1. isam file
      もとのファイルは /altje/dict/isam/ にあります。
      各辞書やインデックスファイルのファイル名は、 http://kssmt.mkn.kecl.ntt.co.jp/altdocs/dic/itiran-a3.html#pattern を見てください。
      ただし、このファイルはisam形式なので、通常のlessなどでは見れません。
      % /altje/bin/read_isam p_wabun.dic -r all
      のようにtextに直してご覧下さい。
      % /altje/bin/pdic p_wabun.dic
      でバイナリにしてから加工することもできます。
      藤田がつくったtextに直すプログラムもありますので、欲しければ言ってください
    2. SQL DB
      藤田がMySQLでDB化したものが、artemisのCOMMON というDBにあります。
      table名など詳しいことは、 http://artemis.icl.kecl.ntt.co.jp/mysql/table_pat.html を見てください。
      ちなみに、 http://artemis.icl.kecl.ntt.co.jp/mysql/index.html は、麻野間さんがつくって下さったpageで、MySQLの使い方などが載っています。
    next
  5. 登録数
    辞書名 のべ数 異なり数
    一般パターン 13363 6367
    専門パターン 338 266
    駄文パターン 24 23
    慣用表現 3064 2596
    合計 16789 9252
    next
  6. 検索
    1. PHP&MySQL
      PHP&MySQLを利用してon-line でパターン対の検索などを行えるよ うにしています(By 藤田)。
      まだバグなどがあるかと思いますが、よければ使ってみてください。 http://goshun/~sanae/pat/index.html
      パターン対辞書だけでなく、ALTの日英対照辞書や日本語辞書も(最低限 の情報だけですが)一応検索できます。
    2. on-line1
      http://kssmt.mkn.kecl.ntt.co.jp/~bond/cgi-bin/pndic.cgi でもパターン対の検索ができます(By Bond et al.)。
    3. on-line2
      http://sakura.mkn.kecl.ntt.co.jp/cgi-bin/pdic.cgiもありますが、 上の二つの方が詳しい情報がみれます。
    4. command line
      まずMuleでALT-J/Eを立ち上げます(M-x r3 ret)。 ALT-J/Eの立ち上がったWindowでC-t C-j。 あとは表示に従い、表示形式を選択し、検索文字を入れます。
      例) 表示を図形(y)とし、「読む」を検索すると。
      USER(10): ;;;辞書検索("読む")
      <パタン対辞書>
      
       -000001-00-                         (動作)
      ┌ N1 (主体) (が)                   U_SENT
      ├ N2 (抽象物(精神) 精神) (を)    ├ PREDICATE - VERB "read"
      └ 読む                             ├ CASE S N1
                                          └ CASE DO N2 OBJ-form
      
       -540346-00-                         (動作)
      ┌ N1 (主体) (が)                   U_SENT
      ├ *N2 ("票") (を)                  ├ PREDICATE - VERB "predict"
      └ 読む                             ├ CASE S N1
                                          └ CASE DO N2 OBJ-form
      
       -540347-00-                         (動作)
      ┌ N1 (人) (が)                     U_SENT
      ├ N2 (抽象) (を)                   ├ PREDICATE - VERB "compose"
      ├ *N3 (詩歌) (に)                  ├ CASE S N1
      └ 読む                             ├ CASE DO N3 OBJ-form
                                          └ CASE PP
                                            └ U_PP "on" N2 OBJ-form
      ・・・・・・ 略(continue) ・・・・・・
      
      のように表示されます。
  7. 詳細
    パターン対の情報は、詳しくは http://kssmt.mkn.kecl.ntt.co.jp/altdocs/dic/pattern/をどうぞ。
next

[3] ALT以外のValency Dictionary との比較

一般に使えるOpen resource としては出回っていませんが、翻訳/辞書をやっ ているところでは似たようなものをたいてい持っているらしいです。 "A Valency Dictionary Architecture for Machine Translation " (pdf) (Francis Bond et al.,TMI-99 )参照。
next
  1. COMLEX (Grishman et al. 1994)
    利点 問題点
    next
  2. Word Net(Fellbaum 1998) http://www.cogsci.princeton.edu/~wn/
    sakuraなどにも入っていると思います。
    利点 問題点
    next
  3. EVCA(English Verb Classes and Alternations:Levin 1993)
    利点 問題点
    next
  4. Jing&McKeown's (1998) combined lexicon
    利点 問題点
    next
  5. ALT-J/E
    利点 問題点/改善したい点 展望?
next

日本電信電話株式会社 NTT コミュニケーション科学基礎研究所
社会情報研究部
自然言語研究グループ
〒619-0237 京都府相楽郡精華町光台2-4
藤田 早苗

Machine Translation Research Group <mt@cslab.kecl.ntt.co.jp>
NTT Communication Science Laboratories
2-4 Hikari-dai, Seika-cho, Soraku-gun, Kyoto, JAPAN, 619-0237
Tel: 0774-93-5331 (+81); Fax: 0774-93-5345 (+81)
Sanae Fujtia

Back to MTG home page
Last modified: Tue Oct 9 13:08:55 JST 2001