貝葉斯分析方法研究

才智咖 人氣:4.35K
貝葉斯分析方法研究
摘 要機器學習作為一門人工智慧的科學自20世紀50年代被提出以來,經過人們的不斷研究,已形成了一套科學系統的理論。機器學習中一個很重要的步驟是特徵的選擇與提取,原始特徵的數量可能很大,或者說樣本處在一個高維空間中,我們需要找到一個合理的方法,降低特徵數量的同時,儘量減少原特徵中包含資訊的損失,因子分析法就是這樣一種降維的方法。然而由於因子分析模型中存在不可觀測的隱變數,普通的極大似然法很難得到其引數的估計。貝葉斯理論提供了一種計算各變數後驗概率的方法,這種方法基於假設的先驗概率和觀測到的資料,可以得到模型各變數的後驗概率。本文的工作正是在這種研究背景下展開的。在前人工作的基礎上,本文著重研究瞭如何運用變分貝葉斯演算法推匯出因子分析法的貝葉斯後驗分佈公式。歸納起來,本文的主要內容包括以下四個方面:*簡要介紹貝葉斯機器學習的基礎知識,包括貝葉斯定理,貝葉斯估計和幾種先驗分佈。*簡要介紹因子分析模型,分析其降維的機理。*為估計因子分析模型中的引數,引入EM演算法和變分貝葉斯演算法,以解決模型中存在隱變數的問題。*推導因子分析法的貝葉斯後驗分佈公式,並用Matlab程式設計實現,通過合成數據檢驗理論的正確性最後,我們對全文工作進行了總結,並指出今後需要進一步研究的一些問題。關鍵詞:因子分析法 貝葉斯理論 後驗分佈 EM演算法 變分貝葉斯演算法ABSTRACTAs a kind of artificial intelligence science, machine learning was proposed in the 1950’s and has formed a scientific and systematic theory. A very important step in machine learning is feature extraction and selection. The number of original features may be huge, or we can say that the sample is in a high dimensional space. So we need to find a reasonable approach which can not only reduce the number of observed variables, but also minimize the loss of the information contained in the original features. Factor analysis is such a dimension reduction method. However, because of the existence of unobserved hidden variables in the factor analysis model, the estimation of parameters using maximum likelihood solution becomes intractable. The Bayesian theory provides a solution to compute the posterior probabilistic of variables. Based on the assumption of prior probabilistic and the observed data, it can find the posterior probabilistic of all variables in the model. Based on previous work, this paper focuses on the derivation of the Bayesian posterior distribution of the parameters in factor analysis model via the Variational Bayesian algorithm. The main content of this paper is summarized as follows:完成 實現implementation* Briefly introduce the basic knowledge of Bayesian machine learning, including the Bayesian method, Bayesian inference and the choice of prior.* Briefly introduce the factor analysis model.* Introduce EM algorithm and Variational Bayesian algorithm for the estimation of parameters, in order to solve the problem of hidden variable.* Derive the Bayesian posterior distribution of the parameters, and code the algorithm with Matlab, which is validated by experiments using synthetic lly, we conclude the paper with a summary and advance some suggestions for further research in factor ords: Factor analysis Bayesian theory Posterior probabilisticEM algorithm Variational Bayesian algorithm目 錄第一章 緒論 2第二章 貝葉斯理論基礎知識 22.1 貝葉斯公式 22.2 貝葉斯推斷 22.3 先驗分佈的選擇 22.3.1 客觀先驗分佈 22.3.2 主觀先驗分佈 22.3.3 分層先驗分佈 22.4 小結 2第三章 因子分析法 23.1 引言 23.2 因子分析法 23.1.1 因子分析模型 23.1.2 因子分析模型的性質 23.3 因子分析與主成分分析的比較 23.4 小結 2第四章 變分貝葉斯理論 24.1 EM演算法 24.1.1 EM演算法基本理論 24.1.2 對EM演算法的理解 24.1.3 EM演算法收斂性分析 24.2 變分貝葉斯 24.2.1 VBEM演算法 24.2.2 後驗分佈的求解 24.3 小結 2第五章 變分貝葉斯因子分析 25.1 模型假設 25.2 引數求解 25.3 實驗分析 25.4 小結 2第六章 結束語 2致 謝 2參考文獻 2第一章 緒論生活中,我們每時每刻都在對周圍的事物進行著認知與識別,然而對於人腦中這種認知與識別的機理,人們尚未得到準確的解釋。機器學習是研究如何使用計算機模擬人類認知學習過程的一門科學,它對於理解人類大腦的學習過程有很大幫助。計算機在對周圍的事物進行認知的時候,是對現實中的事物建立數學模型,將觀測到的資訊進行取樣和量化,以向量的形式儲存在計算機中。計算機從一個物體中提取的資訊可以是多種多樣的,比如,對於一個蘋果,可以提取它的顏色和形狀,然而對於一個複雜的事物,可以提取的特徵數量可能是巨大的,它們在計算機中以高維的矩陣形式儲存,處理這樣的高維矩陣是令人頭疼的一件事。幸運的是,我們發現這些數量龐大的特徵之間存在著某些相關性,因而通過對這些資訊進行一定的數學處理,可以簡化所需要的特徵數量,實現所謂的降維。因子分析法就是這樣的降維方法。因子分析法是多元統計學中的一種降維方法,它通過研究觀測變數相關陣或協差陣的內部依賴關係,將多個變數綜合為少數幾個因子,以再現原變數與因子之間的相關關係。因子分析的主要應用有兩個方面:一是尋求基本結構,簡化觀測系統,將具有錯綜複雜關係的變數綜合為少數幾個不可觀測但相互獨立的隨機變數,即因子,再現因子與原變數之間的內在聯絡;二是針對分類問題,將因子分析法用於特徵提取,使用降維的特徵實現對原變數的分類。通常情況下,我們手頭只有一組觀測樣本,因而首先要做的就是利用樣本對模型中的引數進行估計。然而由於因子分析模型中存在無法觀測的隱變數,造成在對其模型進行引數估計時,應用最大似然估計法會導致計算過於複雜,這時我們想到運用期望最大(EM)演算法進行引數估計。EM演算法是一種高效的迭代演算法,通過不斷優化似然函式的下界來近似最大化似然函式,進而求得引數的估計值。其最大的特點是能夠處理含有隱變數的模型。在求解的過程中還用到了一個重要的理論,貝葉斯理論。貝葉斯理論是由托馬斯•貝葉斯提出的逆概率這一概念發展而來的一種普遍的推理方法,在貝葉斯模型中,引數不再是一個未知的常數,而是具有某一分佈形式的隨機變數。它通過假設引數的先驗分佈,再結合已有的觀測資料,計算出引數的後驗分佈。用後驗分佈的期望作為引數的估計值。然而在一些複雜的模型中,引數的後驗分佈具有極其複雜的形式,期望的計算通常包含複雜的高維積分。這時我們需要引入一種高效的優化演算法,變分貝葉斯(VB)演算法。變分貝葉斯演算法通過優化似然函式的積分項,以求得引數後驗分佈的估計形式。本文在簡要介紹了貝葉斯機器學習理論的基礎上,重點推導了因子分析法的後驗分佈形式,具體內容安排如下:第二章介紹了貝葉斯推斷的基礎知識,包括貝葉斯公式,貝葉斯估計,先驗分佈的選擇問題。第三章介紹了因子分析法。第四章介紹了期望最大(EM)演算法和變分貝葉斯(VB)演算法。第五章推導了因子分析模型中引數和隱變數的貝葉斯後驗分佈形式。第六章對全文的工作進行了總結。第二章 貝葉斯理論基礎知識2.1 貝葉斯公式貝葉斯公式源於貝葉斯在他生前為解決一個逆概率問題而寫的文章,那時的人們已經能夠計算正向概率,那麼什麼是逆概率呢?這在生活中其實很常見。比如一所學校裡面有60%的男生,40%的女生。男生總是穿長褲,女生則是一半穿長褲一半穿裙子。有了這些資訊之後我們就可以容易地計算“隨機選取一個學生,他(她)穿長褲的概率和穿裙子的概率”,這個就是前面說的“正向概率”的計算。然而,假設你走在校園中,迎面走來一個穿長褲的學生(很不幸你是高度近視,你只看得見他(她)穿的是否是長褲,而無法確定他(她)的性別),你能夠推斷出他(她)是女生的概率是多大嗎?逆概率問題由此產生。接下來就來計算一下這個概率。假設學校裡面人的總數是 。60%是男生,而且他們都穿長褲,於是我們得到了穿長褲的男生的人數: ,(其中 是男生的概率,即60%, 是男生穿長褲的概率,被稱為條件概率,這裡是100% ,因為所有男生都穿長褲)。40%的女生裡面又有一半是穿長褲的,於是我們又得到了穿長褲的女生的人數: , 是女生的概率, 是女生穿長褲的概率,即50%。現在就可以來計算碰到一個穿長褲的學生是女生的概率了,即(2-1)注意到, ,我們稱其為完備事件組。式(2-1)即常說的貝葉斯定理,用規範化的數學語言描述為:設事件 構成一系列互不相容的完備事件組,則對任意事件 有(2-2)式(2-2)被稱為貝葉斯公式,其中 , 被稱為先驗概率, 被稱為後驗概率。貝葉斯公式反映了先驗概率向後驗概率的轉化。為了引入貝葉斯統計模型,將式(2-2)改寫為隨機變數的形式:假定觀測的樣本 ,是來自帶引數的總體 ,引數 可以是向量,總體的概率密度是 ,貝葉斯學派把 看成是與 一樣的具有某種概率分佈的隨機變數,因此,應把經典統計中的 看成是條件概率密度 ,即已知引數 時總體 的密度。這樣,只要知道 的先驗概率 ,就可以通過抽取樣本觀測值來得到對 的新的`認識,求出後驗概率 ,即(2-3)在貝葉斯統計模型中,對於引數 的一切推斷都是從其後驗分佈出發的。2.2 貝葉斯推斷假設觀測變數 服從概率密度為 的分佈形式, 為待估引數。現在有 組觀測樣本 ,它們之間相互獨立,則 的聯合概率密度為(2-4)這一概率隨 的取值而變化,所以它是 的函式。 被稱為樣本的似然函式。最大似然估計法是一種在已知模型的一些樣本資料的情況下求引數最可能取值的方法。通過對似然函式求關於 的偏導數,可以得到 的估計值 。又因為 與 在同一 處取到極值,所以通常將似然函式寫成對數形式 。貝葉斯理論的觀點是這樣的引數 服從某一概率密度函式 ,用來表示在取得資料之前,對 取值的猜測,即通常所說的先驗分佈。利用貝葉斯定理,將資料和引數的分佈聯合起來,則有(2-5)式(2-5)中的分母項被稱為歸一化常數,該常數經常被忽略,因為我們關心的是不同引數之間的比較,所以(2-6)可以看到,後驗分佈其實就是由似然函式和先驗分佈的乘積決定的。這個後驗分佈 是進行引數 的點估計的出發點。貝葉斯點估計有以下三種方法[7]:1.最大後驗估計使後驗分佈 達到最大值的點 被稱為 的最大後驗估計。即(2-7)2. 後驗均值估計後驗分佈 的均值 被稱為 的後驗均值估計,即(2-8)3. 後驗中位數估計後驗分佈 的中位數 被稱為 的後驗中位數估計。先驗分佈概括了實驗前對 的認識,而在得到樣本觀測值 後,認識起了變化,這反映在貝葉斯公式中,後驗分佈綜合了 的先驗資訊與樣本觀測值提供的有關 的資訊,是貝葉斯統計推斷的基礎,所以貝葉斯推斷的原則是對引數 所做任何推斷必須基於且只能基於 的後驗分佈。2.3 先驗分佈的選擇由上一節可知,引數 的後驗分佈由兩部分組成:似然函式和先驗分佈。其中似然函式是模型給定的,而先驗分佈則是人為設定的,這裡人的意願起主導作用,可見,給出一個合理的先驗分佈,對引數的求解十分重要。下面介紹幾種常用的先驗分佈:2.3.1 客觀先驗分佈(Objective Prior)客觀先驗分佈是指在無先驗知識可用的情況下,對引數的先驗分佈做出的一種假設。由於我們對 是無知的,所以認為在其取值範圍內的每一點都是等概率的,服從一種“均勻分佈”。即假設(2-9)當 為無界區域時, 不是通常意義下的概率分佈,為此需要引進廣義先驗分佈的概念。稱滿足下面兩式的分佈為廣義先驗分佈[7]:(1) (2-10)(2) (2-11)需要注意,按式(2-10)的定義, 並不是通常意義下的概率分佈,但由於式(2-11)的成立,因此類似於式(2-5)所確定的後驗分佈 是存在的。當 滿足式(2-9)且為廣義先驗分佈時, 稱為廣義均勻分佈。由於(2-12)從而,當 為廣義均勻分佈時,有(2-13)即似然函式是後驗分佈的核心。式(2-13)可以看做是貝葉斯假設下的後驗分佈形式。通常也稱滿足貝葉斯假設的先驗分佈為“無資訊先驗分佈”(non-informative prior)。2.3.2 主觀先驗分佈(Subjective Prior)主觀先驗分佈是將先驗資訊儘可能多的壓縮排先驗分佈中。先驗資訊可能是由以往的經驗和專業知識獲得的。下面介紹一種重要的主觀先驗分佈——共軛先驗分佈(Conjugate prior)。一個先驗分佈如果是共軛先驗分佈,則它的由似然函式 和先驗分佈 相乘得到的後驗分佈 和先驗分佈具有同樣的形式。比如,變數 服從二項分佈 , 的先驗分佈選為 分佈,即(2-14)又引數的似然函式為(2-15)所以, 的後驗分佈為(2-16)上式右端是 分佈的核,故(2-17)可見 的先驗分佈與後驗分佈具有相同的分佈形式,只是後驗分佈對引數進行了更新。共軛先驗分佈要求 提供的資訊與樣本分佈 提供的資訊綜合以後,不改變 的分佈規律。這實質上是認為在推斷 的分佈時由先驗分佈提供的資訊是主要的。共軛先驗分佈只存在於指數族模型中,常見的高斯分佈,二項分佈,伽馬分佈等都是指數族模型。2.3.3 分層先驗分佈(Hierarchical Prior)在進行貝葉斯推斷的時候,首先假設一個引數的先驗分佈,例如,假設 服從伽馬分佈,即 ,這時又引入了兩個新的引數 和 。如果將這兩個引數也看作隨機變數,給它們加上某種分佈形式, 和 ,這樣就可以通過 和 來控制 的分佈,這就是一個分層先驗分佈的模型。其中引數 和 被稱為超引數(Hyperparameter)。類似的,還可以引入新的引數 來控制 和 ,這個過程可以不斷地重複,直到某一個引數的先驗分佈不再依賴其他的引數為止。2.4 小結這一節介紹了貝葉斯統計推斷的一些基礎知識,包括貝葉斯定理,引數的估計和幾種常用先驗分佈的選取。貝葉斯定理是貝葉斯統計推斷的核心,而引數的先驗分佈的正確選擇是引數估計合理性的關鍵。第三章 因子分析法3.1 引言在各個領域的科學研究中,往往需要對反映事物的多個變數進行大量的觀測,收集大量資料以便進行分析尋找規律。多變數大樣本無疑會為科學研究提供豐富的資訊,但也在一定程度上增加了資料採集的工作量,更重要的是在大多數情況下,許多變數之間可能存在相關性而增加了問題分析的複雜性,同時對分析帶來不便。如果分別分析每個指標,分析又可能是孤立的,而不是綜合的。盲目減少指標會損失很多資訊,容易產生錯誤的結論。因此需要找到一個合理的方法,減少分析指標的同時,儘量減少原指標包含資訊的損失,對所收集的資料作全面的分析。由於各變數間存在一定的相關關係,因此有可能用較少的綜合指標分別綜合存在於各變數中的各類資訊。因子分析就是這樣一種降維的方法。3.2 因子分析法因子分析(Factor Analysis, FA)是多元統計分析中的一種重要方法, 最早由英國心理學家C.E.斯皮爾曼提出,其主要目的是用來描述隱藏在一組觀測到的變數中的一些更基本的,但又無法直接測量到的隱性變數(Hidden Variable)。因子分析利用降維的思想,從研究原始變數相關矩陣內部結構出發, 把一些錯綜複雜的變數歸結為少數幾個綜合因子。其基本思路是根據相關性大小將變數分組,使得同組內的變數之間的相關性較高,不同組內的變數間的相關性較低。每組變數代表一個基本結構,用一個不可觀測的綜合變量表示,這個基本結構稱為公共因子。對於所研究的問題就可以用最少個數的不可觀測的公共因子的線性函式與特殊因子之和來描述觀測到的每個分量。比如,某公司老闆對應聘者進行面試,並給出他們在15個方面所得的分數,這15個方面是:申請書的形式( ),外貌( ),專業能力( ),討人喜歡( ),自信心( ),精明( ),誠實( ),推銷能力( ),經驗( ),積極性( ),抱負( ),理解能力( ),潛力( ),交際能力( ),適應性( )。通過因子分析,這15個方面可以歸結為應聘者的外露能力( )、經驗( )、討人喜歡的程度( )、專業能力( )和外貌( )這五個因子。雖然因子分析最早由心理學家提出,但因為其具有降維的特性,現在已經廣泛應用於人臉識別、 語音識別、 Web 文字特徵提取、 社會調查、 心理分析和教育評估等諸多領域。3.1.1 因子分析模型[8]設 是 維可觀測的隨機變數,其均值為 ,協方差為 ;是 維不可觀測的隨機變數,其均值為 ,協方差為 ;通常有 。是與 互不相關的 維不可觀測的隨機變數,且有均值為 ,協方差為 ;則因子分析的一般模型為(3-1)將上式寫成矩陣形式為(3-2)其中 被稱為 的公共因子, 被稱為 的特殊因子;模型中的矩陣 是待估計的係數矩陣,被稱為因子載荷陣。這裡有兩個重要的假設:(1)特殊因子之間互不相關,且有 ;(2)特殊因子和公共因子之間互不相關,即 。3.1.2 因子分析模型的性質[8]1. 的協方差 的分解(3-3)2. 因子載荷陣 的統計意義(1) 的元素(3-4)可見 中元素 刻畫了變數 與 之間的相關性,稱為 在 上的因子載荷。 越大,說明 對 的影響越大。(2) 的行元素的平方和因為 的方差為(3-5)可以看到, 的方差由兩部分組成: 是全部公共因子對變數 的總方差所做的貢獻,它反映了公共因子對 的影響,稱為共性方差; 是特殊因子 對 的方差貢獻,稱為特殊方差。(3) 的列元素的平方和因為(3-6)其中 , 是公共因子 對 的總方差貢獻,它反映了 對 的影響,是衡量公共因子 重要性的一個尺度。顯然, 越大,表明 對 的貢獻越大。(4)因子旋轉因子載荷陣 是不唯一的,設 為任意 正交矩陣,令 , ,則有(3-7)(3-8)(3-9)所以有(3-10)因此可以通過給因子載荷陣右乘一個正交矩陣 ,來旋轉因子,使新的因子有更好的意義。3.3 因子分析與主成分分析的比較主成分分析是(Principal Component Analysis,PCA)一種與因子分析類似的降維方法,其基本理論是通過對原始觀測變數進行線性組合從而得到主分量。設 是 維隨機變數,均值為 ,協方差為 。對 進行線性變換有(3-11)將上式寫成矩陣形式為(3-12)我們希望尋找一組新的變數 ,這組新的變數要求充分地反映原變數的資訊,而且相互獨立。我們知道,當一個變數只取一個數據時,這個變數(資料)提供的資訊量是非常有限的,當這個變數取一系列不同資料時,可以從中讀出最大值、最小值、平均數等資訊。變數的變異性越大,說明它對各種場景的“遍歷性”越強,提供的資訊就更加充分,資訊量就越大。主成分分析中的資訊,就是指標的變異性,用標準差或方差表示它。從線形代數的角度來看,PCA的目標就是使用另一組基去重新描述得到的資料空間。而新的基要能儘量揭示原有的資料間的關係。它是一個線性變換。這個變換把資料變換到一個新的座標系統中,使得任何資料投影的第一大方差在第一個座標軸(稱為第一主成分)上,第二大方差在第二個座標軸(第二主成分)上,依次類推,保持資料集的對方差貢獻最大的特徵,這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住資料的最重要方面。PCA的重點在於最大限度的體現原資料所包含的資訊,而FA模型的重點在於解釋原始變數之間的內在關係。主成分分析的一個顯著特點是沒有對觀測資料建立概率模型,模型中的引數是固定的,需要計算資料的協方差矩陣,當觀測量的維數很高時,計算量會很大。因此Bishop和Tipping在1999年提出了概率主成分分析模型[5](Probabilistic Principal Component Analysis,PPCA)。同樣的,設 是 維隨機變數,均值為 ,協方差為 。 是 維不可觀測的隱變數,通常服從高斯分佈 ,則有(3-13)其中 為原始變數在座標空間的各個方向上所加的噪聲,同樣服從高斯分佈 。於是可以通過最大似然估計得到模型中的引數和隱變數。可以看到,概率PCA與FA模型在形式上十分相似,只是兩者在噪聲變數上限制不同。概率PCA模型要求所加噪聲在各個方向上一致,而FA模型則捨去了這一限制。其次,PCA模型和PPCA模型都要求觀測變數子空間的基是正交的,由於零均值高斯變數正交則獨立,因此,這兩種模型相應的隱變數各元素是相互獨立的。但事實上,獨立變數不一定都是正交的,獨立的條件要比正交更弱,FA模型並不要求觀測變數的子空間的基相互正交,通過似然函式最大保證隱變數各元素的獨立統計性,同時還放寬對噪聲的限制,並不要求噪聲變數各元素的方差都相同。因此具有更普遍的適用性[4]。3.4 小結這一章介紹了因子分析法的基本知識和主要性質,並與主成分分析作了比較。要對觀測資料進行因子分析,首先就要對因子分析模型中的引數進行估計,引數包括因子載荷陣 和特殊因子的方差 。在運用極大似然法估計時,由於模型中存在不可觀測的隱變數,要找到使對數似然函式達到最大值的引數是十分困難的,在下面的一章中,將介紹一種引數估計的特別演算法,EM演算法。它在解決模型中存在隱變數的引數估計這一方面十分有效。第六章 結束語因子分析法作為一種有效的資料降維的方法,廣泛的應用於人工智慧,機器學習和模式識別領域。由於模型中存在不可觀測的隱變數,使得引數的估計比較複雜。本文從貝葉斯理論出發,運用變分貝葉斯EM演算法推匯出因子分析模型中引數和隱變數的後驗分佈形式,並在一定程度上解決了隱變數維數的自動確定問題。現將本文的主要工作歸納如下:*介紹了貝葉斯理論的基礎知識,包括貝葉斯定理,貝葉斯估計和先驗分佈的選擇。*介紹了因子分析模型,並與主成分分析作簡要比較。*運用變分貝葉斯演算法推匯出了因子分析法的貝葉斯後驗分佈公式,並用Matlab程式設計實現。本文尚存在一些問題沒有解決,比如演算法只能解決隱變數維數較少的資料,且程式對於初始條件的設定過於敏感等,這些將在今後的研究工作中得到進一步的解決。致 謝畢業設計作為大學四年的最後一課,教會了我許多東西。在做畢設的這幾個月裡,我學到的不只是專業上的理論知識,更重要的是漸漸學會如何去做一項研究,如何獨立解決遇到的問題,如何查閱資料等等,為將來研究生階段的學習作了準備。當然,不能忘記的是那些一直在我身邊幫助我的人,我的老師、同學和朋友,在此,向他們致以最誠摯的謝意﹗首先,我要衷心地感謝我的指導老師杜蘭副教授。在整個的畢設過程中,杜老師對於我在工作上遇到的問題,始終給予耐心細緻的講解和幫助,盡職盡責,我能夠順利的完成畢業設計離不開她的幫助。同時我還要感謝與我同在一個畢設小組的李志鵬,緱曉宇和閻昆同學,在畢設過程中我們互相學習,相互鼓勵,共同進步。還有,感謝大學四年與我朝夕相處的我的舍友們,謝謝他們四年來帶給我的快樂,他們是我一生的朋友。最後,深深地感謝我的家人對我的關心和支援,我會更加努力的!參考文獻[1] M. J. Beal, Variational Algorithms for Approximate Bayesian Inference, Phd. Thesis, University College London (UCL), May 2003;[2] C. M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006;[3] F. B. Nielsen, Variational Approach to Factor Analysis and Related Models, Master Thesis, Technical University of Denmark, May 2004;[4] 杜蘭, 雷達高分辨距離像目標識別方法研究, 博士學位論文, 西安電子科技大學, 2007年4月.[5] C. M. Bishop, M. E. Tipping, Probabilistic Principle Component Analysis, September 27 1999;[6] M. J. Beal, Z. Ghahramani, The Variational Bayesian EM Algorithm for Incomplete Data: with Application to Scoring Graphical Model Structures, University College London (UCL), 2003;[7] 範金成, 梅長林, 資料分析, 北京: 科學出版社, 2002;[8] 高慧璇, 實用統計方法與SAS系統, 北京: 北京大學出版社, 2001,10;[9] 邊肇祺, 張學工, 模式識別 (第二版). 北京: 清華大學出版社, 2000;[10] 李昌利, 沈玉利, 期望最大演算法及其應用, 計算機工程與應用, 2008, 44(29). 61-63;[11] J. A. Bilmes, A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models, International Computer Science Institute, 1998, 4;[12] 李昌利, 李司東, 基於EM演算法的因子分析中隱變數的條件概率密度函式, 數學的實踐與認識, 2009年7月, 39卷(14期). 132-135;