HOME / 研究展示 / 文章の隠れた構造を見える化します
研究展示
コミュニケーションと計算の科学
10

文章の隠れた構造を見える化します

疑似正解データを活用したニューラル修辞構造解析

文章の隠れた構造を見える化します
どんな研究

文書において、文書内のそれぞれの文どうしは意味を構成するために関わりがあります。こうした文と文の間の意味関係を明らかにする修辞構造理論は、文書をラベル付き木としてあらわします。本展示ではそれを自動で解析する修辞構造解析技術についてご説明します。

どこが凄い

修辞構造解析技術は教師あり学習を用いているため、性能の向上には人手で作成した正解データが大量に必要でした。提案法では既存の自動解析結果を組み合わせて疑似的な学習データを作ります。これにより、人手コストをかけることなく解析性能を向上できます。

めざす未来

文脈を解釈することでより自然な要約や 翻訳を実現することができます。修辞構造解析技術はこうした文脈を解釈する処理の基盤となります。本技術をさらに発展させ実用に耐えうる解析器を実現することで、要約や翻訳の性能向上をめざします。

文章の隠れた構造を見える化します
関連文献

[1] N. Koabayashi, T. Hirao, H. Kamigaito, M. Okumura, M. Nagata, “Improving Neural RST Parsing Model with Silver Agreement Subtrees,” in Proc. 2021 Annual Conference of the Noth American Chapter of the Association for Computational Linguistics, 2021.

展示説明ムービー
Q&A
Q.質問/コメント A.回答
Q.質問/コメント

なぜ,木全体(文書単位)での一致でなく部分木の一致で擬似正解データを作成するのですか?

A.回答

木全体にするとそのサイズが大きいため,一致する文書が極端に減ってしまうことによりデータ量が減ってしまいます.部分木にすると十分な量のデータを確保できます.ただし,部分木の数は膨大になるのでサイズを制御することでデータ量をコントロールしています.

Q.質問/コメント

全体のF値が62.6 というのは低すぎないのでしょうか?

A.回答

修辞関係ラベルのアノテーションは複雑なため人間の判断がゆらぎます.よって,正解データを作成した人物と別の人がこのタスクを解いた場合,全体のF値65程度にしかならないことから現状の性能は十分に高いと考えます.

ポスター
連絡先

平尾 努 (Tsutomu Hirao) 協創情報研究部 言語知能研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら