HOME / 研究展示 / TVを視聴するだけで賢くなるAI
研究展示
メディアの科学
16

TVを視聴するだけで賢くなるAI

クロスモーダル学習による動作概念の獲得

TVを視聴するだけで賢くなるAI
どんな研究

大量データの準備には、手間がかかったり、データの入手自体が難しかったり、クラスラベルの付け方を事前に設計することが難しかったりします。この展示では、TV放送のようなメディアデータだけから、モノやコトの概念を自動獲得するAIを、より高度な認識や検索に活用する研究を紹介します。

どこが凄い

教師ラベルなしで映像における動作とそれを説明する話し言葉を時空間で対応付け、概念に相当する特徴表現を獲得する技術を考案しました。スポーツ実況の映像と音声データから、競技者の動作と実況の話し言葉の対応付けによる概念検索を実現しました。

めざす未来

TVを視聴するだけで、AIが音と映像を対応付けながら、知らないモノやコトを自ら学び、賢くなる未来をめざしています。音や映像、言語といったメディアの種類を横断する超大規模アーカイブ検索や自動アノテーションなどへの応用を検討しています。

TVを視聴するだけで賢くなるAI
関連文献

[1] Y. Ohishi, A. Kimura, T. Kawanishi, K. Kashino, D. Harwath, J. Glass, “Trilingual Semantic Embeddings of Visually Grounded Speech with Self-attention Mechanisms,” in Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2020.
[2] Y. Ohishi, A. Kimura, T. Kawanishi, K. Kashino, D. Harwath, J. Glass, “Pair Expansion for Learning Multilingual Semantic Embeddings using Disjoint Visually-grounded Speech Audio Datasets,” in Proc. Interspeech 2020.
[3] Y. Ohishi, Y. Tanaka, K. Kashino, “Unsupervised Co-Segmentation for Athlete Movements and Live Commentaries Using Crossmodal Temporal Proximity,” in Proc. International Conference on Pattern Recognition (ICPR) 2020.

展示説明ムービー
Q&A
Q.質問/コメント A.回答
Q.質問/コメント

今後の研究の方向性を教えて下さい。

A.回答

「日常の実生活の中でユーザを支援するデジタルツイン」を想定し、モノやコトの概念獲得にとどまらず、形容詞や副詞で表現される程度や状態など、個々のユーザに適応した柔軟な概念獲得をめざします。

Q.質問/コメント

学習にはどの程度のデータ量が必要ですか。

A.回答

NHKの相撲中継動画から、高頻度の、9つの決まり手で勝敗が決まった 1,128 クリップ(各10秒)を、現時点の学習で使っています。概念獲得に最低限必要な学習データは引き続き調査する必要があります。

Q.質問/コメント

相撲以外のスポーツ実況にも適用可能ですか。

A.回答

動きの程度に応じてデータの前処理やモデルパラメータのチューニングが必要ですが、適用可能と考えます。現在、対象とする映像の種類を拡大させて、技術を検証しています。

ポスター
連絡先

大石 康智 (Yasunori Ohishi) メディア情報研究部 メディア認識研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら