PhD thesis

Shinji Watanabe, ``Speech recognition based on a Bayesian approach," PhD thesis, Waseda University, (2006.2) (PDF)


Abstract

Speech recognition is a very important technology, which functions as a human interface that converts speech information into text information. Conventional speech recognition systems have been developed by many researchers using a common database. Therefore, currently available systems relate to the specific environment of the database, which lacks robustness. This lack of robustness is an obstacle as regards applying speech recognition technology in practice, and improving robustness has been a common worldwide challenge in the fields of acoustic and language studies. Acoustic studies have taken mainly two directions: the improvement of acoustic models beyond the conventional Hidden Markov Model (HMM), and the improvement of the acoustic model learning method beyond the conventional Maximum Likelihood (ML) approach. This thesis addresses the challenge in terms of improving the learning method by employing a Bayesian approach.

This thesis defines the term “Bayesian approach” to include a consideration of the posterior distribution of any variable, as well as the prior distribution. That is to say, all the variables introduced when models are parameterized, such as model parameters and latent variables, are regarded as probabilistic variables, and their posterior distributions are obtained based on the Bayes rule. The difference between the Bayesian and ML approaches is that the estimation target is the distribution function in the Bayesian approach whereas it is the parameter value in the ML approach. Based on this posterior distribution estimation, the Bayesian approach can generally achieve more robust model construction and classification than an ML approach. In fact, the Bayesian approach has the following three advantages:
However, the Bayesian approach requires complex integral and expectation computations to obtain posterior distributions when models have latent variables. The acoustic model in speech recognition has the latent variables included in an HMM and a Gaussian Mixture Model (GMM) . Therefore, the Bayesian approach cannot be applied to speech recognition without losing the above advantages. For example, the Maximum A Posteriori based framework approximates the posterior distribution of the parameter, which loses two of the above advantages although MAP can utilize prior information. Bayesian Information Criterion and Bayesian Predictive Classification based frameworks partially realize Bayesian advantages for model selection and robust classification, respectively, in speech recognition by approximating the posterior distribution calculation. However, these frameworks cannot benefit from both advantages simultaneously.

Recently, a Variational Bayesian (VB) approach was proposed in the learning theory field, which avoids complex computations by employing the variational approximation technique. In the VB approach, approximate posterior distributions (VB posterior distributions) can be obtained effectively by iterative calculations similar to the expectation-maximization algorithm in the ML approach, while the three advantages provided by the Bayesian approaches are still retained. This thesis proposes a total Bayesian framework, Variational Bayesian Estimation and Clustering for speech recognition (VBEC), where all acoustic procedures of speech recognition (acoustic modeling and speech classification) are based on the VB posterior distribution. VBEC is based on the following four formulations:
    1. Setting the output and prior distributions for the model parameters of the standard acoustic models represented by HMMs and GMMs (setting).
    1. Estimating the VB posterior distributions for the model parameters based on the VB Baum-Welch algorithm similar to the conventional ML based Baum-Welch algorithm (training).
    2. Calculating VBEC objective functions, which are used for model selection (selection).
    3. Classifying speech based on a predictive distribution, which is analytically derived as the Student’s t-distribution from the marginalization of model parameters based on the VB posterior distribution (classification).
VBEC performs the model construction process, which includes model setting, training and selection (1st, 2nd and 3rd), and the classification process (4th) based on the Bayesian approach. Thus, VBEC can be regarded as a total Bayesian framework for speech recognition.

This thesis introduces the above four formulations, and show the effectiveness of the Bayesian approach through speech recognition experiments. The first set of experiments show the effectiveness of the Bayesian acoustic model construction including the prior utilization and model selection. This work shows the effectiveness of the prior utilization for the sparse training data problem. This thesis also shows the effectiveness of the model selection for clustering contextdependent HMM states and selecting the GMM components, respectively. The second set of experiments achieve the automatic determination of acoustic model topologies by expanding the Bayesian model selection function in the above acoustic model construction. The topologies are determined by clustering context-dependent HMM states and by selecting the GMM components simultaneously, and the process takes much less time than conventional manual construction with the same level of performance. The final set of experiments focus on the classification process, and show the effectiveness of VBEC as regards the problem of the mismatch between training and input speech by applying the robust classification advantages to an acoustic model adaptation task.


概要

計算機上での音情報理解の中で最も重要な技術の一つが,音情報をテキスト情報に変換す る音声認識技術である.従来の音声認識は研究者間で共通のデータベースを用いることにより限られた環境で性能を競い合うという研究スタイルにより大きく発 展を遂げた.しかし,実現されたシステムはモデルパラメータ数百万におよぶ超巨大なものであり,限られた環境に特化されたシステムであるゆえに,頑健性を 大きく欠落している.そのため, 頑健性の点から音声認識の実用化にまだまだ大きな壁が存在し, いかにして音声認識システムの頑健性を向上させるかは,世界共通の課題となっている.そのような取り組みは音響的及び言語的両視点から研究されており,特 に音響的視点においては,モデル化の観点から,従来の隠れマルコフモデル(HMM) にもとづく音響モデルをいかに改良するか,及び,学習理論の観点から,従来の最尤学習にもとづく音響モデル学習をいかに改良するか,という2 つの方向性が存在する.本研究は, 学習理論の観点から, ベイズ的手法にもとづいた頑健な音声認識実現を取り組む.

本論文で扱うベイズ的手法は単に事前確率分布を最尤推定法に取り入れるだけでなく,分布パラメータや隠れ変数といった,モデルのパラメトリック表現におい て導入された全ての変数を確率変数とみなし,その事後確率分布をベイズの定理から推定して利用する手法である. そのため,従来のパラメータ推定にもとづく最尤推定法とは推定対象をパラメータ値ではなく分布関数とする点が大きく異なる.この事後確率分布推定にもとづ いて,ベイズ的手法は, 音声認識で広く用いられている最尤学習に比べてより頑健なモデル構築・識別が可能であるといわれている.実際に,ベイズ的手法には大きく分けて3 つの利点がある.
しかし隠れ変数存在下で事後確率分布を正確に推定するためには,モンテ・カルロシュミ レーションなどの数値的手法が必要である.音声認識用音響モデルは,音素コンテクストからなる多数のカテゴリーを持ち,総計数百万に及ぶパラメータが相互 に依存し,またHMMや多次元の混合ガウス分布モデル(GMM) を通して多数の隠れ変数を内包する.このような複雑なモデルを数値的手法で扱う場合,莫大な計算量を必要とするため,音声認識におけるベイズ的手法の実現 は大変困難であった.そのため,従来音声認識で実現されてきた事後確率最大化法やベイズ的予測識別法,ベイズ情報量基準法などはいずれも,事後確率分布の 推定を行わない近似的実現手法に過ぎず,先に挙げたベイズ的手法の利点を全て内包するものではなかった.

近年,変分ベイズ法にもとづく近似的事後確率分布(VB 事後確率分布とよぶ) 推定法が提案され,隠れ変数存在下においても期待値最大化アルゴリズムにより効率よくモデル学習ができるようになった.本研究では,この変分ベイズ法を元 に最尤法にもとづく音声認識を発展させ,従来の近似的なベイズ的手法を内包する本格的なベイズ音声認識VBEC(Variational Bayesian Estimation and Clustering for speech recognition) を構築した. VBEC は大きく分けて4 つの定式化よりなる.
  1. HMM およびGMM を用いて表現される音響モデルに対して,出力確率分布とそのモデルパラメータに対する事前確率分布の設定(設定).
  2. 従来の最尤学習法にもとづくBaum-Welch アルゴリズムと同様のVB 版のBaum-Welch アルゴリズムを構築して,モデルパラメータに対するVB 事後確率分布を推定(学習).
  3. 学習データに応じた適切なモデル構造の選択のためのVB 評価関数の算出(選択).
  4. VB 事後確率分布と出力確率分布をもとにモデルパラメータに関して周辺化を行い,予測分布がStudent のt 分布として解析的にもとまることを示し,その予測分布をもとにした識別(識別).
これにより,1 から3 のモデルの設定・学習・選択による音響モデル構築過程及び4 の識別過程,つまり音声認識の音響モデルに対する全ての過程がベイズ的手法で実現される.従ってVBEC は本格的なベイズ音声認識であるといえる.

本研究はこの4 つの定式化を紹介すると共に,それによって実現されるベイズ法の利点についてそれぞれ実験を用いて検証し,有効性を示す.はじめに,モデルの設定・学習・ 選択(1 から3) を用いて,ベイズ的手法を首尾一貫して利用した音響モデル構築を実現する.それにより,少量学習データでの本手法の優位性を示すとともに,音素環境依存の HMM状態クラスタリング問題及びGMM混合数決定におけるモデル選択機能効果を示す.次に,上記音響モデル構築過程におけるモデル選択を発展させ, HMM状態クラスタリング及びGMM混合数の決定を同時に最適化することにより,音響モデル構造の自動決定を実現する.本手法は,計算機のみによる高性能 な音響モデルの自動構築を実現し,さらに従来の人手を用いたモデル構築手法と比較して計算時間を大幅に削減することができる.最後に,モデル識別に注目 し,実現される頑健な識別効果を音響モデル適応実験に応用することにより,実用的タスクでのVBEC の有効性を示す.

BACK