HOME / 研究展示 / 騒がしい生活環境で、音声だけ高品質に取り出す
研究展示
メディアの科学
15

騒がしい生活環境で、音声だけ高品質に取り出す

音源分離・雑音抑圧・残響抑圧の全体最適化

騒がしい生活環境で、音声だけ高品質に取り出す
どんな研究

がやがやとした生活環境において、音声端末が人間の声を高精度に音声認識するには、マイクに混入する雑音や残響を取り除き (雑音抑圧残響抑圧)、複数の人の声を聞き分ける必要があります (音源分離)。この展示ではこれら3つの問題を統合的に解決する新技術を紹介します。

どこが凄い

現在の最先端技術は、音源分離・雑音抑圧・残響抑圧の3技術を別々に最適化するため、雑音や残響が大きい環境において、音声を高品質に取り出すことができませんでした。これら3技術を統合し全体最適化することで、音声を高品質に取り出し、音声認識性能を大きく改善しました。

めざす未来

マイクで収録した音から各話者の音声を高品質に取り出す技術は、スマートスピーカや対話ロボットといった音声端末 (コンピュータ) の基盤をなす技術です。駅・街頭・ショッピングモールなどの生活環境において、人とコンピュータが円滑に対話できる世界の実現に寄与します。

騒がしい生活環境で、音声だけ高品質に取り出す
関連文献

[1] T. Nakatani, C. Boddeker, K. Kinoshita, R. Ikeshita, M. Delcroix, R. Haeb-Umbach, “Jointly optimal denoising, dereverberation, and source separation,” in Proc. IEEE/ACM Trans. Audio, Speech, Language Process., vol. 28, pp. 2267-2282, 2020.
[2] R. Ikeshita, T. Nakatani, S. Araki, “Block coordinate descent algorithms for auxiliary-function-based independent vector extraction,” in Proc. IEEE Trans. Signal Process., 2021, to appear.
[3] R. Ikeshita, T. Nakatani, “Independent vector extraction for fast joint blind source separation and dereverberation,” in Proc. IEEE Signal Process. Lett., 2021, to appear.

展示説明ムービー
動画の公開は終了いたしました。ご了承くださいますようお願いいたします。
Q&A
Q&A の公開は終了いたしました。ご了承くださいますようお願いいたします。
ポスター
連絡先

池下 林太郎 (Rintaro Ikeshita) メディア情報研究部 信号処理研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら