研究展示
04 |
話しながら移動しても声を聞き取り続けます音源の移動に追従可能なニューラルビームフォーミング ![]() |
---|
どんな研究 |
音に溢れた環境において機械が人の声を正しく認識するためには、聞きたい人の声のみを取り出す音声強調技術が必要です。本研究では、移動しながら話す状況でも、人の移動を捉え、聞きたい人の声を聞き取り続けるビームフォーミングの技術を紹介します。 |
---|---|
どこが凄い |
ビームフォーミングでは音源や雑音の到来方向の情報(空間情報)が必要です。本研究では時間変化する空間情報の推定問題を移動に応じて発話を分割する問題と捉え、深層学習を用いて解く手法を提案することにより、目的音源が移動しても高精度な空間情報の推定が可能となりました。 |
めざす未来 |
現在でも、比較的静かな状況では機械は人の声を高精度に認識できるようになりましたが、さらなる技術発展により、雑音が多い、複数人が自由に話す、歩き回りながら話す、といったどのような状況の中でも、人と機械が自然にやり取りできる未来をめざします。 |

[1] T. Ochiai, M. Delcroix, T. Nakatani, S. Araki, “Mask-Based Neural Beamforming for Moving Speakers With Self-Attention-Based Tracking,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 31, pp. 835-848, 2023.
落合 翼(Tsubasa Ochiai)メディア情報研究部 信号処理研究グループ