NTTコミュニケーション科学基礎研究所 研究内容紹介 協創情報研究部02

title_research.gif

index.gif

title_innovative_icon.gif
title_innovative.gif
title_innovative_1.gif

統計的学習とデータマイニング

大量のデータを自動的に解釈し活用するための基本技術

世の中にあふれる膨大なデータを解析して有益な情報を提示するデータマイニング技術は、ビジネス上での判断のみならず、日々の様々な生活場面でも役立つものとなります。ノイズを含み、かつ不完全にしか観測できないデータを扱うためには、統計的機械学習のアプローチが有効です。我々は特に、データの背後に潜む隠れたトピックを抽出する技術、関係データの大局的な構造を抽出する技術、ユーザの興味や質問に関連する部分データを効率良く探索する技術、画像・映像データから知識体系を構築する技術、を研究テーマとして取り組んでいます。

■研究の背景

今日我々が入手できるデータの量はとても膨大で、人間が一通り目を通すことすらかないません。また、テキスト文書や画像や音は直感的に理解できますが、加速度データなどのセンサデータを直接見て解釈するのは困難です。従って、そのような膨大なデータを自動的に解析・解釈する方法が望まれます。そこで我々は、統計的機械学習の技術に基づいて、計算機で実行可能なデータマイニング手法やアルゴリズムを開発しています。そのような計算機によるデータの自動的な解釈は、人間の能力を超え、本質的に新しい発見を提供してくれるかもしれません。

■潜在トピック抽出技術

多様な大規模データに内在する隠れた構造(トピック)を抽出するための手法であるトピックモデルの開発を行っています。トピックモデルは文書が生成される過程を表現した確率モデルです。トピックモデルを拡張し、可視化や推薦システム、購買ログ解析などへの適用を進めています。

innovative_2_1.gif

■時間変化する関係データの解析・クラスタリング技術

ソーシャルネットワーク上の友人関係や企業間の取引関係など、時間とともに変化する“関係”の情報を対象として、関係ネットワークに潜むコミュニティクラスタの発見や関係の時間変化を追跡する技術を研究しています。

innovative_2_2.gif

■高速類似探索

文書・画像・音声音響信号・記号列等の多様なデータを対象とし、種々の類似尺度を利用できる、近傍グラフを索引構造とする高速類似探索法の研究をしています。
近傍グラフの利用は、探索高速化を達成し、多様なデータ・類似尺度を利用可能とします。
さらに探索結果を容易に可視化することも可能となります。

innovative_2_3.gif

■大規模画像・映像データからの知識獲得・認識・検索技術

複雑かつ多様な画像や映像から、「もの」に関する事前知識が少量であっても、「映っているもの」を自動的に取り出して内容を特定する技術を研究しています。

innovative_2_4.gif