HOME / 講演動画 / 研究講演
研究講演

聞きたい人の声に耳を傾けるAI
深層学習に基づく音声の選択的聴取技術SpeakerBeam
メディア情報研究部 信号処理研究グループ
マーク デルクロア

概要

人は、パーティ会場などの騒がしい環境の中でも、聞きたい人(目的話者)の手がかり(声の特徴など)に注目してその人の声を聞き取ることができる、「選択的聴取」と呼ばれる能力を持っています。本講演では、この選択的聴取をコンピュータで実現することをめざした研究をご紹介します。はじめに、我々が提案した、目的話者の手がかりに基づき混ざった音声の中から目的話者の音声のみを抽出する技術SpeakerBeamについてご紹介します。さらに、音声や唇の形状など、音や映像などの複数のモダリティを使うマルチモーダル目的話者手がかりへの拡張や音声認識との統合、音響イベント信号を含んだより一般的な信号抽出問題への拡張といった最新の研究動向についてもご紹介する予定です。

関連文献

[1] M. Delcroix, K. Zmolikova, 木下慶介, 荒木章子, 小川厚徳, 中谷智広, “SpeakerBeam: 聞きたい人の声に耳を傾けるコンピュータ──深層学習に基づく音声の選択的聴取”, NTT技術ジャーナル, Vol. 30, No. 9, pp. 12-15, 2018.
[2] K. Zmolikova, M. Delcroix, K. Kinoshita, T. Ochiai, T. Nakatani, L. Burget, and J. Cernocky, “SpeakerBeam: Speaker aware neural network for target speaker extraction in speech mixtures,” IEEE Journal of Selected Topics in Signal Processing, Vol. 13, No. 4, pp. 800–814, 2019.
[3] T. Ochiai, M. Delcroix, K. Kinoshita, A. Ogawa, and T. Nakatani, “Multimodal SpeakerBeam: Single channel target speech extraction with audio-visual speaker clues,” in Proc. The 20th Annual Conference of the International Speech Communication Association(INTERSPEECH), pp. 2718-2722, 2019.
[4] I. Medennikov, M. Korenevsky, T. Prisyach, Y. Khokhlov, M. Korenevskaya, I. Sorokin, T. Timofeeva, A. Mitrofanov, A. Andrusenko, I. Podluzhny, A. Laptev, A. Romanenko, “Target-Speaker Voice Activity Detection: A Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario,” in Proc. The 21th Annual Conference of the International Speech Communication Association(INTERSPEECH), pp. 274-278, 2020.
[5] M. Delcroix, S. Watanabe, T. Ochiai, K. Kinoshita, S. Karita,A. Ogawa, and T. Nakatani, “End-to-end speakerbeam for single channel target speech recognition,” in Proc. The 20th Annual Conference of the International Speech Communication Association(INTERSPEECH), pp. 451-455, 2019.
[6] T. Ochiai, M. Delcroix, Y. Koizumi, H. Ito, K. Kinoshita, and S. Araki, “Listen to what you want: Neural network-based universal sound selector,” in Proc. The 21th Annual Conference of the International Speech Communication Association(INTERSPEECH), pp. 2718–2722, 2020.
[7] Y. Ohishi, A. Kimura, T. Kawanishi, K. Kashino, D. Harwath, J. Glass, “Pair Expansion for Learning Multilingual Semantic Embeddings Using Disjoint Visually-Grounded Speech Audio Datasets,” in Proc. The 21th Annual Conference of the International Speech Communication Association(INTERSPEECH), pp. 1486-1490, 2020.

講演動画
講演資料
関連コンテンツ
Q&A
Q.質問/コメント A.回答
Q.質問/コメント

話者の特徴量としてどのようなものを使うのがよいのかは、すでに十分わかっていることなのでしょうか?(例えば、混ざっていない音声であれば、その特徴量で、誰の声かを正確に当てることはできるのでしょうか?)

A.回答

目的話者抽出の研究と、誰の声かを当てる話者認識の研究は、関連がありますが、別の研究分野です。

話者認識は、基本的に一人の混ざっていない音声に対し、誰の声かをどのくらい正確に推定できるかという問題を解こうとしている研究です。話者認識分野では、様々な話者の特徴量が研究されていて、最近は、ニューラルネットワークで計算された話者の特徴量が一般的になっています。ここにおけるニューラルネットワークは、直接話者認識を行うために学習されたネットワークになります。話者認識は、声で認証することを目指しているので、大量の話者から、とても正確に声の識別をする必要があります。

これに対し目的話者抽出は、数人の混合音声の中から聞きたい話者の音声を抽出する研究です。目的話者抽出の分野でも、話者認識で使われている話者の特徴量も検討されていますが、我々の実験では、目的話者抽出のために直接最適化した話者の特徴量の方が高い性能を達成することを確認しています。その理由は、複数人の混合音声の中から一人を抽出するために最適な情報と、話者認識を行うための最適な情報は必ずしも同じではないためです。また、その目的話者抽出用の話者の特徴量を用いてもある程度の話者認識はできますが、話者認識に使われている話者の特徴量に比べて、一人の混ざっていない音声の識別性能は低いと思います。
SpeakerBeamが使っている話者の特徴量は、似た声どうしの抽出性能はまだ不十分であり、もっと良い話者の特徴量があり得ると考えていますが、まだ見つかっていません。

Q.質問/コメント

選択的聴取の能力に関して、コンピュータは人間の能力を凌駕できているのでしょうか?

A.回答

デモでご覧頂いたように、本技術は、限られた環境(数人の混合音声、オフィスや会議場での録音)では、高い目的話者抽出性能を達成していますが、人間の能力を超えたとは言えません。例えば、同性の混合音声の場合は、もっと性能を上げていく必要があると思います。また、人間は様々な場所、例えば色々な雑音が鳴っている駅のプラットフォームでも、選択的聴取ができますので、本技術についても、様々な場所での評価が必要と考えています。さらに、最後に紹介したように、人間は、音響と映像の手がかり以外にも、例えば話している内容などのより抽象度の高いものを手がかりにして選択的聴取ができます。コンピュータはまだまだこれを達成できていませんので、これからも研究が必要だと考えています。

講演者紹介
マーク デルクロア
メディア情報研究部 信号処理研究グループ
マーク デルクロア

NTTコミュニケーション科学基礎研究所 メディア情報研究部 特別研究員。2008年 北海道大学 大学院情報科学 情報科学研究科 博士課程修了。博士(情報科学)。2010年にNTTに入社以来、音声強調、音声認識、目的話者抽出等の音声・音響信号処理の研究に従事。IEEE、日本音響学会の各会員。