HOME / 研究展示 / 騒がしい生活環境で、音声だけ高品質に取り出す
研究展示
メディアの科学
15

騒がしい生活環境で、音声だけ高品質に取り出す

音源分離・雑音抑圧・残響抑圧の全体最適化

騒がしい生活環境で、音声だけ高品質に取り出す
どんな研究

がやがやとした生活環境において、音声端末が人間の声を高精度に音声認識するには、マイクに混入する雑音や残響を取り除き (雑音抑圧残響抑圧)、複数の人の声を聞き分ける必要があります (音源分離)。この展示ではこれら3つの問題を統合的に解決する新技術を紹介します。

どこが凄い

現在の最先端技術は、音源分離・雑音抑圧・残響抑圧の3技術を別々に最適化するため、雑音や残響が大きい環境において、音声を高品質に取り出すことができませんでした。これら3技術を統合し全体最適化することで、音声を高品質に取り出し、音声認識性能を大きく改善しました。

めざす未来

マイクで収録した音から各話者の音声を高品質に取り出す技術は、スマートスピーカや対話ロボットといった音声端末 (コンピュータ) の基盤をなす技術です。駅・街頭・ショッピングモールなどの生活環境において、人とコンピュータが円滑に対話できる世界の実現に寄与します。

騒がしい生活環境で、音声だけ高品質に取り出す
関連文献

[1] T. Nakatani, C. Böddeker, K. Kinoshita, R. Ikeshita, M. Delcroix, R. Haeb-Umbach, “Jointly optimal denoising, dereverberation, and source separation,” in Proc. IEEE/ACM Trans. Audio, Speech, Language Process., vol. 28, pp. 2267-2282, 2020.
[2] R. Ikeshita, T. Nakatani, S. Araki, “Block coordinate descent algorithms for auxiliary-function-based independent vector extraction,” in Proc. IEEE Trans. Signal Process., 2021, to appear.
[3] R. Ikeshita, T. Nakatani, “Independent vector extraction for fast joint blind source separation and dereverberation,” in Proc. IEEE Signal Process. Lett., 2021, to appear.

展示説明ムービー
Q&A
Q.質問/コメント A.回答
Q.質問/コメント

8本のマイクでの試験には驚きました。折角ですので、今回の試験音声(77%が83%、86%に改善)を聞きたかったです。数%の改善では、PC等の視聴環境では、その格差が判りにくいのでしょうかね。リモート会議やIP電話の、こもった感じや雑音、逆に不快なキンキンする高音等、音にまつわる改善のニーズはコロナ禍で増えていると思います。池下さんらの研究に期待します。

A.回答

ご助言ありがとうございます。ご指摘のとおり、PC 等の視聴環境では、音声の品質がどれだけ改善しているかを体感するのは難しいと思います。(一方で、残響や雑音が強い信号については、聞き慣れている方にとっては、格差を体感できるレベルにあると思います。)今後、リモート会議などの応用を見据えて、研究を進めてまいります。ご質問ありがとうございました。

Q.質問/コメント

大変興味深くわかりやすい内容でした。話者の数<マイクの数という条件下において、マイクの数を増やすことは音源分離精度を上げることに有意に作用しますか。

A.回答

マイクの数を増やしますと、背景雑音や残響の除去性能があがりますので、結果として(一般に)音源分離性能は向上します。

Q.質問/コメント

話声以外を分離することは可能でしょうか?生体音に適用できるのであれば、展示№19のテレ聴診音と組み合わせることで、専用の器具の着用をせずとも必要な音源を分離することができるのではないかと思いました。

A.回答

展示の技術は、原理的には、音声以外のデータ(生体音など)も分離できます。

今後、他の分野のデータに対しても提案手法が有効かどうか、確認していきたいと思います。ご指摘いただき、ありがとうございました。

Q.質問/コメント

マイクの性能条件はありますか?同一のマイクが複数であれば汎用マイクで可能でしょうか。

A.回答

技術的に汎用マイクで動作します。展示の実験結果は、無指向性のマイクを用いた場合の結果です。ただし、まだ研究段階ですので、将来商用化する際に、どのような販売形態になるかは全くの未検討です。

Q.質問/コメント

処理にはどれくらいの計算パワーが必要ですか?
少ない計算パワーしか利用できない場合でも、何か実用的なことができる可能性はありますか?

A.回答

本成果において、音源分離と雑音抑圧の部分だけを切り出して用いれば、実用的な計算時間で高精度な処理が可能です。残響抑圧部分もマイク数が少ない場合 (2 ~ 3 個) でしたら、比較的少ない計算コストで実行できます。全体処理については、高精度化までが今回の主な成果で、高速化については今後の課題と考えています。

Q.質問/コメント

話者が何人いても音源分離できるのでしょうか?

A.回答

展示の技術は、話者の数がマイクの数以下でしたら、音源分離できます。

ポスター
連絡先

池下 林太郎 (Rintaro Ikeshita) メディア情報研究部 信号処理研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら