使用誤差中心基準最優化方式的支援向量機的快速訓練(一)

才智咖 人氣:1.09W

外文資料譯文

使用誤差中心基準最優化方式的支援向量機的
快速訓練

L. Meng,Q. H. Wu。
電機工程電子學學院,利物浦大學,利物浦, L69 3GJ 英國

 摘要: 這篇文章為支援向量機 (SVM) 訓練提出一個新演算法,這個演算法是基於由現在的機器引起的誤差中心束來訓練一部機器的。從各種不同的訓練組合的實驗中展現出新的運演算法則刻度的計算時間與訓練組合大小几乎成線性關係,因此與二次規劃標準(QP)技術相比可被提供於更大的訓練組合。
keywords: 支援向量機器, 二次規畫, 模式分類, 機器瞭解。
1 引言
 在統計學理論中基於最近的進展,支援向量機 (SVMs) 組成一個勇於式樣分類的學習系統的新團體。訓練一個支援向量機相當於解決一個有著密集矩陣的二次規劃的問題。二次規劃標準的解決需要這個矩陣的所有儲存而且他們的效率在於他們的稀疏程度,他向有著大的訓練組合設定的支援向量機訓練提出申請。
 被 Vapnik 和他的隊被提倡的支援向量機, 是一新的模式分類和非線性迴歸技術.(參看【1】,【2】,和【3】)
 由於線性分離的問題,一個支援向量機是一個從有最大值的一組反面樣本中分離出一組正面樣本的超平面。雖然簡單直觀, 但是這個最大值的觀點實際上開拓了在統計學理論中的結構風險最小化(SRM)原則【4】. 因此,所瞭解的機器不僅有最小的經驗風險還有好的推廣的能力。
 對於非線性可分離的問題,在分類超平面被建立之前輸入一個非線性對映 ,而這個分類超平面將訓練樣本從輸入空間傳送到比較高維的特徵空間。分類超平面是建立在特徵空間的。他在輸入空間產生一個非線性決定邊界。這個決定邊界是由在特徵空間的處於分類超平面的對映點組成的。非線性對映運用模式可分離定理通過【5】被一致運用.一個複雜的存在於一個高維非線性空間的模式分類問題比在一個低維空間更有可能是線性分離的。
 對於支援向量機, 分類決定函式的新的樣本被定義為: 
指一個分類樣本, 指相符合的特徵向量,和b分別指常向量和分類超平面的截距,向量和常量b是最優引數。
 w和b的優化相當於優化一個服從於一些線性約束的目標函式,。目標函式聯合支援向量機優化是一個凸二次函式而且因此最佳化問題沒有最大限度的限制。許多變數的二次函式的優化問題在優化理論方面被很好理解並且大多數與之接近的標準能直接應用於支援向量機的訓練。然而,大多數二次規劃標準技術需要在目標函式裡面二次型的全部儲存空間。他們或者僅僅適合一些小問題或者僅僅適合二次型非常稀疏的假設,也就是說大多數的二次型元素是零。不幸地是,對於一個支援向量機佳化問題這不事實,問題中二次型方程不僅僅是密集的而且有一個在訓練組合中隨著資料點二次增長的能力。為了有1000個或者更多樣本的訓練任務,儲存器的需求將會超過百兆位元組因此這是不可能碰到的。這禁止了對於有大的訓練組織問題的二次規劃標準技術的申請。一個替代方案在需要時每一次會重新計算二次型。但是這變得非常的昂貴因為二次規劃技術是重複的並且在每次的重複中需要對二次型進行計算。
 如此的思路產生了支援向量機器的一個新的訓練演算法的設計。在這篇文章中被推薦的.演算法是概念性的簡單事情,一般很快而且比標準的二次規劃技術有更大規模的資產。
2 在支援向量機訓練中的最優化問題
 給一個訓練樣本的,其中是模仿一個輸入樣本所屬於的目標響應指示,結合訓練一個支援向量機的最佳化問題能被寫成如下:
OP1:
 限制條件           
 其中間隙被兩個超平面所限定而且通過來測量,是允許間隙出現誤差的鬆弛變數,C是一個與有一些間隙誤差的寬大間隙交換的引數。當時,機器被稱為一個固定間隙支援向量機因為所有的訓練樣本必須放在邊緣外部,是不允許有劃分誤差的。否則,機器被成為一個可變間隙支援向量機。
    通過引入拉格朗日乘子和和拉格朗日函式
因此要對拉格朗日函式關於求最小值並且要對拉各朗日函式關於的最大值,其中我們有

並且OP1的二重形式如下:

其中定義為在特徵空間中的兩個向量的內積並被稱為核函式。核函式的使用允許一個支援向量機,沒有以前明確的特徵空間的描述,他的運用限制了在特徵空間的分類超平面和在那個空間的分類向量這樣的詳細描述特徵向量的計算負擔沒有增加。
    OP2本質上是一個二次規劃問題因為他有下面的形式:
     
其中矩陣Q是二次型。對於支援向量機的訓練,他被定義為
    由【6】和【7】得Karush―Kuhn―Tucker(KKT)條件是對一組變數達到最優得最優化問題得充分必要條件。對於問題OP1運用(KKT)條件,我們知道最優解決必須要滿足
     
和    
包含   
       
 方程式(9)以及方程式(8)和(10)顯示出只有那些在間隙邊界上的而不是那些處在變化的樣本是符合要求的 。方程(8)表明對於符合等於零的所有樣本必須要被正確的分類並且放在間隙以外。方程(10)表明具有符合的間隙誤差要等於上面的受約束的C。此外,方程(7)顯示非零的鬆弛變數只有當時存在而且所有的間隙誤差都要受到懲罰。
3 誤差中心基準最優化
   一個二次規劃問題的大小取決於二次型Q。在支援向量機訓練中,矩陣Q的大小是,其中表示訓練資料點的個數。如所描述的,有一個為明確儲存Q的標準解決技術的必要條件,但是在支援向量機訓練中禁止運用標準二次規劃去計算有大量資料組的支援向量機的訓練。
    考慮到這些,通過【8】一個新的支援向量機訓練的技術產生了。基本的想法是去壓縮最初的訓練組然後訓練一個關於由最近壓縮群中心所組成的一個工作組的機器。在每次重複中壓縮通過分離每個將一個支援向量作為它的中心的群為兩個附屬群來進行更新。因為這個新的演算法從由群中心所組成的工作組中摘取分類資訊,所以被稱為中心基準最優演算法。關於各種訓練組的試驗已經顯示出採用中心基準最優化方法的訓練時間比標準技術所用的時間要少的多。對於大的訓練任務,中心基準最優化演算法能將所用的時間少於用標準技術所用時間的1/150。
    可惜的是,雖然一個最優邊界能夠通過中心基準最優化的方法找到,但是產生決定邊界的最優化不能對每一次執行有所保證。(參看Fig.1(a)和Fig.1(b)進行比較)。這是因為一個k方式計演算法已被運用於分離中心基準最優化方法。這個演算法的上升性質使他在不同的最優化限制方面變得容易捕捉到。不管產生的決定邊界有不精確和多樣性,中心基準的快速性展現了中心基準演算法的巨大潛力,它