探析語音識別技術的發展及趨勢

才智咖 人氣:9.55K
探析語音識別技術的發展及趨勢
  論文關鍵詞 語音識別技術 發展 趨勢
  論文摘要 近20年來,隨著資訊科技的不斷髮展,語音識別技術也逐步的發展成熟。語音識別技術研究讓人更加方便地享受到更多的社會資訊資源和現代化服務,對任何事都能夠通過語音互動的方式。本文就對語音技術的發展及趨勢作了簡單的闡述。  
   
  語音識別是一門交叉學科。語音識別研究經歷了50多年的研究歷程,經過50多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術取得了顯著的進步,並逐步的走向市場。在未來的日子裡,語音識別技術將應用更為廣泛。本文就語音識別的發展及趨勢作簡單的闡述。 
  1 語音技術的發展歷史 
  50年代,研究人員多數致力於聲學和語音學的基本概念。1952年,在AT& T Bell實驗室實現了一個單一發音人孤立發音的10個英文數字的語音識別系統,方法主要是度量每個數字的母音音段的共振峰。1956年,RCA Lab 開展了另外一項獨立研究,試圖識別單一發音的10個不同的音節,同樣採用了度量共振峰的方法。1959年,英國University College的研究人員開始嘗試另外一種思路,用譜分析和模板匹配方法構建音素識別器,用來識別4個母音和9個子音。60年代,相繼出現並發表了語音識別的幾個重要的思想。1962年,東京大學進行了另一個音素識別器的硬體實現的嘗試。它使用過零率方法分離語音訊號的不同部分,並進行識別。1963年,日本NEC Lab對數字進行語音識別的嘗試可以算得上最值得注意的工作,因為它不僅是NEC研究語音識別的開端,還導致一個長期的和卓有成效的研究計劃。在60年代中,3個研究專案的開展對其後20多年的語音識別研究和開發產生了重大影響。第一個研究專案在RCA Lab開始於60年代後期,目的是研究語音事件在時間刻度上不均勻性的現實解決辦法。在能夠可靠檢測出語音事件的始末點的基礎上,發展了一套時間歸正的基本方法。 
  2 語音識別技術的發展現狀 
  語音識別技術通過全球科學家的共同努力,經歷半個多世紀的研究,目前已經發展到了接近實用的階段。在實驗室環境下,大詞彙量的朗讀式連續說話的寬頻語音訊號的平均識別率可以達到90%以上。正式有了如此高的識別率之後,語音識別技術慢慢地從實驗室演示系統逐步走向實用化商品。以IBM Via Voice和Dragon Dictation為代表的兩個聽寫機系統的出現,使“語音識別”逐步進入大眾視線,引起了廣泛的社會關注。 
  由於校對和更正識別的錯誤很麻煩和浪費時間,這樣便降低語音識別的優勢。同時,由於使用的環境或講話口音習慣等因素的影響,語音識別的內容大大降低,識別的內容不能達到100%的正確,所以很多人認為目前的語音識別系統還無法滿足實用要求。 
  目前,AT&T和MIT等將語音識別技術應用在一些有限詞彙的特定任務上,如電話自動轉接、電話查詢、數字串識別的任務中,當講話的內容是系統所儲存的內容存在的,且使用環境的聲學特性與訓練資料的聲學特性相差不太大時,語音識別的正確識別率可以接近100%。但是,在實際使用中如果這些條件被破壞,則會對識別系統造成一定的影響。 
  3 語音識別技術發展趨勢 
  雖然語音識別在過去的20年裡有了很大的發展,但是,仍然存在很多的不足,有待於進一步的'探索,具體可分為以下幾個方面: 
  1)提高可靠性。語音識別技術需要能排除各種聲學環境因素的影響。在比較嘈雜的公共環境中,人的意識會有意識的排除非需要的聲學環境因素,這對語音識別系統而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,並帶有明顯的言語習慣。這同樣會給語音識別系統很大的識別麻煩。目前,在提高語音系統在不同環境中的可靠性,同時要應用現代技術讓語音識別系統更加智慧化,掌握人們語言隨意性的部分規律,以達到最佳的識別效果。 
  2)增加詞彙量。系統可以識別的詞彙的數量是系統能夠做什麼事情的一個重要度量。一個語音識別系統使用的聲學模型和語音模型如果太過於侷限,當用戶所講的詞彙超出系統已知的範圍時,則語音識別系統不能準確的識別出相應的內容,比如,當突然從中文轉為英文、法文、俄文時,計算機就會常常輸出混亂奇怪的結果。但是,隨著系統建模方法的不斷改進、搜尋演算法效率的提高以及硬體資源的發展,未來的語音識別系統可能會做到詞彙量無限制和多種語言混合,這樣使用者在使用的時候可以不必在語種之間來回切換,這樣就能大大減少詞彙量的對語音識別系統的限制。 
   3)應用拓展。語音識別技術可以用於把費腦、費力、費時的機器操作變成一件很容易很有趣味性的事,比如,當人們出現手忙、手不能及以及分身無術的場景時,通過語音識別系統的模型構造,則能夠在象駕駛室、危險的工業場合、遠距離資訊獲取、家電控制等各個方面,語音識別技術可能帶動一系列嶄新或更便捷功能的裝置出現,更加方便人的工作和生活。其應用的範圍和前景非常廣泛。不僅能夠應用於日常生活,更重要的會帶來生產方式的革命,是下一代智慧化控制的基礎。 
  4)降低成本減小體積。微型化是語音識別技術商業應用的另一個重要途徑,其推廣程這取決於語音識別技術本身進步的程度,同時與微電子晶片技術的進一步發展關係密切。將具有先進功能和效能的語音識別應用系統固化到更加微小的晶片或模組上,可以大幅度降低產品成本和體積,產品必然受到消費者的青睞,語音識別系統和微電子晶片技術的發展是會引領我們的資訊科技革命到一個新的臺階。 
   21世紀是資訊和網路的時代,Internet和行動通訊、固話通訊的網路把全球各地連線起來。自然口語對話、電子商務、資訊索取、數字圖書館、語音翻譯、遠端教育等一系列的人類活動都可在網路上實現。語音識別系統的出現,會讓人更加自由的溝通,讓人在任何地方,任何時間,對任何事都能夠通過語音互動的方式,方便地享受到更多的社會資訊資源和現代化服務。這必然會成為語音識別技術研究和應用的重要發展趨勢。 
   
  參考文獻 
  [1]楊尚國,楊金龍.語音識別技術概述[J].福建電腦,2006 (8). 
  [2]孫寧,孫勁光,孫宇.基於神經網路的語音識別技術研究 [J].計算機與數字工程,2006.