研究講演

ご所望の声でコミュニケーション

~深層生成モデルが切り拓く音声変換の可能性~

メディア情報研究部
田中 宏

概要

人と人とのコミュニケーションには、物理的・能力的・心理的な状態に起因する様々な形の制約が存在します。私たちは、ある音声を異なる音声や望みの音声へと変換する技術の研究を通じてこのような制約を取り除き、あらゆる人が不自由なく快適にコミュニケーションを行える環境を実現することをめざしています。本講演では、「“音声”が、近年著しく発展を続けている深層学習と組み合わせると、どんなことができるのか?」を題材に、従来技術の課題と私たちの取組みを紹介します。

講演動画

講演動画はPart1,Part2,Part3の3つのパート分かれています。ぜひ、全編を通してごらんください。

Part1: 8分52秒

Part2: 8分46秒

Part3: 16分05秒

関連コンテンツ

講演資料

講演者紹介

メディア情報研究部
田中 宏
NTT コミュニケーション科学基礎研究所 メディア情報研究部 研究員。2017年奈良先端科学技術大学院大学 情報科学研究科 博士課程修了。博士(工学)。同年NTTに入社以来、音声合成・音声変換の研究に従事。深層生成モデルを用いた音声信号処理に特に興味を持つ。奈良先端科学技術大学院大学優秀学生賞や日本音響学会第47回粟屋潔学術奨励賞を受賞。日本音響学会の会員。