PhD thesis
Shinji
Watanabe, ``
Speech
recognition based on a Bayesian approach," PhD thesis, Waseda
University, (2006.2) (
PDF)
Abstract
Speech recognition is a very important
technology, which functions as a human interface that converts speech
information into text information. Conventional speech recognition
systems have been developed by many researchers using a common
database. Therefore, currently available systems relate to the specific
environment of the database, which lacks robustness. This lack of
robustness is an obstacle as regards applying speech recognition
technology in practice, and improving robustness has been a common
worldwide challenge in the fields of acoustic and language studies.
Acoustic studies have taken mainly two directions: the improvement of
acoustic models beyond the conventional Hidden Markov Model (HMM), and
the improvement of the acoustic model learning method beyond the
conventional Maximum Likelihood (ML) approach. This thesis addresses
the challenge in terms of improving the learning method by employing a
Bayesian approach.
This thesis defines the term “Bayesian approach” to include a
consideration of the posterior distribution of any variable, as well as
the prior distribution. That is to say, all the variables introduced
when models are parameterized, such as model parameters and latent
variables, are regarded as probabilistic variables, and their posterior
distributions are obtained based on the Bayes rule. The difference
between the Bayesian and ML approaches is that the estimation target is
the distribution function in the Bayesian approach whereas it is the
parameter value in the ML approach. Based on this posterior
distribution estimation, the Bayesian approach can generally achieve
more robust model construction and classification than an ML approach.
In fact, the Bayesian approach has the following three advantages:
- Effective utilization of prior knowledge through prior
distributions (prior utilization)
- Model selection in the sense of maximizing a probability for the
posterior distribution of model complexity (model selection)
- Robust classification by marginalizing model parameters (robust
classification)
However, the Bayesian approach requires
complex integral and expectation computations to obtain posterior
distributions when models have latent variables. The acoustic model in
speech recognition has the latent variables included in an HMM and a
Gaussian Mixture Model (GMM) . Therefore, the Bayesian approach cannot
be applied to speech recognition without losing the above advantages.
For example, the Maximum A Posteriori based framework approximates the
posterior distribution of the parameter, which loses two of the above
advantages although MAP can utilize prior information. Bayesian
Information Criterion and Bayesian Predictive Classification based
frameworks partially realize Bayesian advantages for model selection
and robust classification, respectively, in speech recognition by
approximating the posterior distribution calculation. However, these
frameworks cannot benefit from both advantages simultaneously.
Recently, a Variational Bayesian (VB)
approach was proposed in the learning theory field, which avoids
complex computations by employing the variational approximation
technique. In the VB approach, approximate posterior distributions (VB
posterior distributions) can be obtained effectively by iterative
calculations similar to the expectation-maximization algorithm in the
ML approach, while the three advantages provided by the Bayesian
approaches are still retained. This thesis proposes a total Bayesian
framework, Variational Bayesian Estimation and Clustering for speech
recognition (VBEC), where all acoustic procedures of speech recognition
(acoustic modeling and speech classification) are based on the VB
posterior distribution. VBEC is based on the following four
formulations:
- Setting the output and prior distributions for the model
parameters of the standard acoustic models represented by HMMs and GMMs
(setting).
- Estimating the VB posterior distributions for the model
parameters based on the VB Baum-Welch algorithm similar to the
conventional ML based Baum-Welch algorithm (training).
- Calculating VBEC objective functions, which are used for model
selection (selection).
- Classifying speech based on a predictive distribution, which is
analytically derived as the Student’s t-distribution from the
marginalization of model parameters based on the VB posterior
distribution (classification).
VBEC performs the model construction
process, which includes model setting, training and selection (1st, 2nd
and 3rd), and the classification process (4th) based on the Bayesian
approach. Thus, VBEC can be regarded as a total Bayesian framework for
speech recognition.
This thesis introduces the above four
formulations, and show the effectiveness of the Bayesian approach
through speech recognition experiments. The first set of experiments
show the effectiveness of the Bayesian acoustic model construction
including the prior utilization and model selection. This work shows
the effectiveness of the prior utilization for the sparse training data
problem. This thesis also shows the effectiveness of the model
selection for clustering contextdependent HMM states and selecting the
GMM components, respectively. The second set of experiments achieve the
automatic determination of acoustic model topologies by expanding the
Bayesian model selection function in the above acoustic model
construction. The topologies are determined by clustering
context-dependent HMM states and by selecting the GMM components
simultaneously, and the process takes much less time than conventional
manual construction with the same level of performance. The final set
of experiments focus on the classification process, and show the
effectiveness of VBEC as regards the problem of the mismatch between
training and input speech by applying the robust classification
advantages to an acoustic model adaptation task.
概要
計算機上での音情報理解の中で最も重要な技術の一つが,音情報をテキスト情報に変換す
る音声認識技術である.従来の音声認識は研究者間で共通のデータベースを用いることにより限られた環境で性能を競い合うという研究スタイルにより大きく発
展を遂げた.しかし,実現されたシステムはモデルパラメータ数百万におよぶ超巨大なものであり,限られた環境に特化されたシステムであるゆえに,頑健性を
大きく欠落している.そのため, 頑健性の点から音声認識の実用化にまだまだ大きな壁が存在し,
いかにして音声認識システムの頑健性を向上させるかは,世界共通の課題となっている.そのような取り組みは音響的及び言語的両視点から研究されており,特
に音響的視点においては,モデル化の観点から,従来の隠れマルコフモデル(HMM)
にもとづく音響モデルをいかに改良するか,及び,学習理論の観点から,従来の最尤学習にもとづく音響モデル学習をいかに改良するか,という2
つの方向性が存在する.本研究は, 学習理論の観点から, ベイズ的手法にもとづいた頑健な音声認識実現を取り組む.
本論文で扱うベイズ的手法は単に事前確率分布を最尤推定法に取り入れるだけでなく,分布パラメータや隠れ変数といった,モデルのパラメトリック表現におい
て導入された全ての変数を確率変数とみなし,その事後確率分布をベイズの定理から推定して利用する手法である.
そのため,従来のパラメータ推定にもとづく最尤推定法とは推定対象をパラメータ値ではなく分布関数とする点が大きく異なる.この事後確率分布推定にもとづ
いて,ベイズ的手法は,
音声認識で広く用いられている最尤学習に比べてより頑健なモデル構築・識別が可能であるといわれている.実際に,ベイズ的手法には大きく分けて3
つの利点がある.
- 事前確率分布を介した事前知識の効率的な利用(事前知識の活用)
- モデル構造の多様性を確率変数とみなすことによる,事後確率最大化の意味での与えられた学習データに適したモデル構造の選択(モデル選択)
- モデルパラメータの周辺化による頑健な識別(頑健な識別)
しかし隠れ変数存在下で事後確率分布を正確に推定するためには,モンテ・カルロシュミ
レーションなどの数値的手法が必要である.音声認識用音響モデルは,音素コンテクストからなる多数のカテゴリーを持ち,総計数百万に及ぶパラメータが相互
に依存し,またHMMや多次元の混合ガウス分布モデル(GMM)
を通して多数の隠れ変数を内包する.このような複雑なモデルを数値的手法で扱う場合,莫大な計算量を必要とするため,音声認識におけるベイズ的手法の実現
は大変困難であった.そのため,従来音声認識で実現されてきた事後確率最大化法やベイズ的予測識別法,ベイズ情報量基準法などはいずれも,事後確率分布の
推定を行わない近似的実現手法に過ぎず,先に挙げたベイズ的手法の利点を全て内包するものではなかった.
近年,変分ベイズ法にもとづく近似的事後確率分布(VB 事後確率分布とよぶ)
推定法が提案され,隠れ変数存在下においても期待値最大化アルゴリズムにより効率よくモデル学習ができるようになった.本研究では,この変分ベイズ法を元
に最尤法にもとづく音声認識を発展させ,従来の近似的なベイズ的手法を内包する本格的なベイズ音声認識VBEC(Variational
Bayesian Estimation and Clustering for speech recognition) を構築した. VBEC
は大きく分けて4 つの定式化よりなる.
- HMM およびGMM を用いて表現される音響モデルに対して,出力確率分布とそのモデルパラメータに対する事前確率分布の設定(設定).
- 従来の最尤学習法にもとづくBaum-Welch アルゴリズムと同様のVB 版のBaum-Welch
アルゴリズムを構築して,モデルパラメータに対するVB 事後確率分布を推定(学習).
- 学習データに応じた適切なモデル構造の選択のためのVB 評価関数の算出(選択).
- VB 事後確率分布と出力確率分布をもとにモデルパラメータに関して周辺化を行い,予測分布がStudent のt
分布として解析的にもとまることを示し,その予測分布をもとにした識別(識別).
これにより,1 から3
のモデルの設定・学習・選択による音響モデル構築過程及び4
の識別過程,つまり音声認識の音響モデルに対する全ての過程がベイズ的手法で実現される.従ってVBEC は本格的なベイズ音声認識であるといえる.
本研究はこの4
つの定式化を紹介すると共に,それによって実現されるベイズ法の利点についてそれぞれ実験を用いて検証し,有効性を示す.はじめに,モデルの設定・学習・
選択(1 から3)
を用いて,ベイズ的手法を首尾一貫して利用した音響モデル構築を実現する.それにより,少量学習データでの本手法の優位性を示すとともに,音素環境依存の
HMM状態クラスタリング問題及びGMM混合数決定におけるモデル選択機能効果を示す.次に,上記音響モデル構築過程におけるモデル選択を発展させ,
HMM状態クラスタリング及びGMM混合数の決定を同時に最適化することにより,音響モデル構造の自動決定を実現する.本手法は,計算機のみによる高性能
な音響モデルの自動構築を実現し,さらに従来の人手を用いたモデル構築手法と比較して計算時間を大幅に削減することができる.最後に,モデル識別に注目
し,実現される頑健な識別効果を音響モデル適応実験に応用することにより,実用的タスクでのVBEC の有効性を示す.
BACK