歌声のF0軌跡に含まれる様々な動的変動成分

Fig1

  図1は、ある楽曲のメロディとそれを歌詞付きで歌唱したときの歌声の声の高さ(音高、F0軌跡)を図示した例である。 F0軌跡には、滑らかに変化しながら目標音高に到達するポルタメントや目標音高より大きく振れてしまうオーバーシュート、音高が安定するときに振動するビブラートなどの「F0動的変動成分」が観測される。 これらのF0動的変動成分の動きは多様であり、歌声知覚や歌唱者の個人性知覚に影響を与えることが、先行研究により明らかにされている。 鼻歌検索の性能向上や表情豊かな歌声合成を実現させるためには、歌唱者ごとのこのような動的変動成分を精確に特徴づけるよう、F0軌跡をモデル化する必要があると考えた。
  そこで、我々は歌声のF0がなんらかの微分方程式に従って生成されると想定する。 しかし、この微分方程式は実際どのような形をしているのかは未知であるため、観測されるF0からこの微分方程式を明らかにする問題設定のもとで、F0をモデル化する表現手法を考えた。

相平面を利用した歌声のF0軌跡の確率的表現方法

Fig2   図2(a)は、F0とその1階微分で構成される相平面(2階微分以上を考慮する場合は相空間と呼ぶ)に描かれる図1の歌声のF0軌跡である。 まず、de Cheveigneらが提案するYINを利用してF0を10msごとに推定する。 なお、Hzで表される周波数を、centで表される対数スケールの周波数に変換する。 一方、F0の1階微分は微小区間(50ms)のF0の回帰係数ΔF0で近似する。
  試しにその動きのデモビデオを見てください。

  
demo1 デモビデオ1  demo1 デモビデオ2  demo1 デモビデオ3 

  我々は、歌声のF0が歌唱様式を特徴づける微分方程式に従って生成されるものと想定し、その解(F0軌跡)の性質を新しい視点で眺めることのできる相平面を利用する。 相平面は、複雑で解けない微分方程式の解の性質を調べるための強力な手段である。 この平面では、解曲線が渦を描きながら、ある点に引き寄せられる動き(アトラクタ)が観測される。 また、アトラクタから別のアトラクタに遷移する動きが観測される。 これらのアトラクタの中心は、歌唱者が歌おうとする目標音高に相当する。 一方、アトラクタの中心にいたるまでの渦軌跡は、歌声の動的変動成分を表す。 例えば、音高安定時に準周期的な振動を繰り返すビブラートは、目標音高を中心に楕円を描く軌跡として観測される。 また、音高が遷移する時に目標音高より大きく振れてしまうオーバーシュートは、螺旋を描きながらアトラクタに引き寄せられる軌跡として観測される(図2(a))。 以上のようにF0を相平面上に描くことによって、歌唱者が歌おうとする目標音高と動的変動成分を効率的に可視化できる。

Fig3   図3は、同じ旋律を二人の歌唱者が歌った歌声のF0軌跡を相平面に描いた結果である。歌唱者AのF0は、歌唱者Bに比べて、継続的に形の整った楕円軌跡を描く。 このことから歌唱者Aは、歌唱者Bよりも振幅の大きいビブラートをかける傾向にあると言える。 また、ビブラートだけでなく、音高遷移、つまりアトラクタから別のアトラクタへの遷移の仕方も歌唱者間で異なる。 このように相平面に局所的に現れる渦巻き型のアトラクタから、歌唱者ごとの歌唱様式の違いを確認できる。

  次に、F0軌跡に含まれる目標音高と動的変動成分を表現する相平面のアトラクタを、確率的にモデル化する手法を提案する。 図2(a)の(i)~(iv)は、すべて同じ目標音高の周りで観測される動的変動成分である(図1の(i)~(iv)に対応する)。同じ目標音高であっても、それ以前の音の並びや歌唱様式によって、その周辺で観測される動的変動成分にはばらつきが生じる。この目標音高の周りの動的変動成分が、確率的に変動するものであると想定する。このばらつきを吸収するために、アトラクタを確率分布として表現する。 図2(b)に示すように、相平面のF0軌跡の分布を混合ガウス分布(GMM)によって確率的に表現すると、確率密度の極大値がアトラクタの中心に位置する。 また、アトラクタの形状がGMMの分布の広がりによって表現される。 このような相平面に描かれるF0軌跡の同時確率分布が、歌唱様式を特徴づける微分方程式を近似的に表現していると考えた。 ただ、このGMMによる確率的な表現によって、F0軌跡の時間情報が失われることは留意すべき点である。

  現在、このようなF0軌跡のモデル化手法を、鼻歌検索や歌唱様式の分析に利用してその有効性を確認している。詳しくは、参考文献を参照して頂きたい。 また、この相平面におけるF0軌跡をうまくトラッキングできれば、初音ミクに負けない表情豊かな歌声の音高軌跡を自由に合成できるのでは?と現在検討しているところです。

参考文献

  1. 大石 康智, 後藤 真孝, 伊藤 克亘, 武田 一哉. "相平面に描かれる歌声の基本周波数軌跡:歌唱者の意図する音高目標値系列の推定とハミング検索への応用," 情報処理学会論文誌, vol.49, no.11, pp.3789-3797, Nov. 2008.
  2. 大石 康智  "多様な歌唱様式を予測・説明する歌声音響信号の分析合成モデルとその応用に関する研究," 博士学位論文 名古屋大学大学院情報科学研究科(予定) Mar. 2009.