體育視訊的內容標註和解析技術研究

才智咖 人氣:2.49W
這篇體育視訊的內容標註和解析技術研究的關鍵詞是內容,研究,體育,技術,視訊,

一,開展本課題研究的意義

體育視訊的內容標註和解析技術研究

近年來,數字視訊的應用日趨廣泛.諸如視訊點播,數字電視,數字圖書館,視訊會議,遠端教育等等,已經為越來越多的人所接受和熟悉.面對大量湧現的視訊資料,如何找到所需的視訊資訊就成為一個急需解決的問題.

簡單的視訊名查詢和類似錄影機的播放功能已不能滿足人們的需要.正如一本書通常會有目錄和索引幫助人們迅速瀏覽和查詢內容,一部視訊同樣需要有效的目錄和索引.傳統的方法需要由人對視訊內容進行標註,十分費時費力.尤其是當視訊資源的數量達到海量級,或是處理的速度要求接近實時的時候,完全採用人工的方法都會遇到難以克服的困難.為了解決這一問題,九十年代以來,出現了基於內容的視訊分析和檢索[1][2][3].其核心就是通過對視訊內容進行計算機分析理解,建立結構和語義索引,以方便使用者檢索.

巨大的商業前景和重要的學術價值,吸引了來自於業界和學術界不同領域的研究人員在這一問題上開展研究.一些原型系統先後被提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的Video Engine[6],卡內基梅隆大學的Informedia[7],哥倫比亞大學的VideoQ[8]等.這些努力最終促成了國際標準——MPEG-7(多媒體內容描述介面)的誕生.但是隨著問題的深入,研究人員面臨了更大的障礙:視覺/聽覺內容的機器理解,即難以建立底層特徵與高層語義的聯絡.同樣的難題困擾了人工智慧領域多年.一般認為,尋找通用的解決方法是異常艱難的.因此,一些研究轉而專注於解決特定領域的應用問題,如新聞,電影等.在這些特定領域,結合相應的領域知識,是可能將底層特徵與高層語義建立某種聯絡的.

體育視訊,即體育比賽的電視轉播,作為一個重要的應用領域,一直備受關注.體育比賽一般很漫長,但對於大多數觀眾來說,真正關心並有可能反覆觀看的只是其中的一小部分.例如一場跳水比賽常常需要持續幾個小時,而其中的精彩部分——運動員從起跳到入水的過程卻只有短短几分鐘.人們需要一種方便快捷的手段來訪問體育視訊的內容.

與其他視訊相比,體育視訊具有自己的特點.首先,體育視訊中存在一些領域相關的語義事件,如跳水比賽中運動員的跳水,足球比賽中的射門等.這些語義事件往往是視訊中最有價值的部分,需要進行標註以便於檢索.其次,體育比賽一般有較強的結構性,如跳水比賽由若干輪組成,每輪又由若干選手組成等.為了便於對視訊內容的瀏覽,原始的視訊資料應按這些結構進行解析並組織成層次目錄.本課題的目標就是研究針對體育視訊內容的語義標註和結構解析技術.

儘管限於當前的技術水平,完全自動的,通用的視訊內容理解是不太可能的,但是本課題的研究將證明部分的解決是有可能的和有價值的,此外我們的研究也將為最終的全面解決奠定基礎.除了學術上的意義,本課題的研究還可以有以下一些直接的應用:

1,視訊資料庫:適用於各類體育專業人士或愛好者對收集的體育比賽視訊資料進行查詢,瀏覽和管理.目前,我們已申請到國家體育總局的科研專案——跳水訓練影象分析軟體系統研製.通過對跳水比賽視訊的內容標註與解析,能夠方便快捷的實現一個典型動作的視訊資料庫.

2,Web多媒體釋出:適用於新聞或者體育網站在Web上及時釋出體育多媒體資訊.今天,已經有越來越多人的習慣於從網上獲取最新的資訊.基於我們的技術,可以在第一時間採編和釋出綜合圖文和視音訊在內的體育多媒體資訊.

3,個人移動業務:適用於無線服務提供商為個人提供定製的多媒體訊息服務(Multimedia Message Service,簡稱MMS).我們的內容標註和解析技術,可以為冗長的體育視訊生成摘要,從而可以根據使用者的個人喜好和終端能力,向移動裝置傳送體育多媒體訊息.

二,國內外研究現狀分析

國際上對於體育視訊的研究是從90年代中期開始的,屬於視訊檢索領域的一個子課題.與新聞視訊領域取得的成功相比[9][10][11],體育視訊的研究相對較少也更為困難.這主要是因為新聞視訊有一個基本一致的時域結構和場景語義,即先是播音員鏡頭,然後是新聞報道,最後再回到播音員鏡頭進行下面的新聞報道,而對於體育視訊則不存在這樣統一的結構和語義.目前體育視訊的研究尚處於初期探索階段,對於其過程和方法還沒有統一的結論,也還沒有可以投入實用的系統.

1,鏡頭檢測

通常在對體育視訊進行分析前,需要將其分割成鏡頭.所謂鏡頭,是指攝像機不間斷拍攝的一組幀序列,它常被看成一部視訊的最小結構單元.為了將鏡頭分割出來,需要進行鏡頭邊界檢測.鏡頭與鏡頭之間的邊界有兩種型別:突變和漸變.突變時,鏡頭直接切換到下一個;漸變時,從一個鏡頭到下一個鏡頭會有一個持續多幀的變化過程,常見的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦變(wipe)等.淡出淡入是指視訊幀逐漸隱去直到完全黑屏,再逐漸顯現後一鏡頭的幀影象.溶解是指在前一鏡頭幀影象逐漸模糊的同時,後一鏡頭的幀逐漸增強,並且產生前後幀影象的重疊.擦變表現為後一鏡頭幀影象的區域逐漸變大把前一鏡頭的影象擦掉.

鏡頭檢測的關鍵問題是如何區分鏡頭之間的切換和因為攝像機或物體運動造成的鏡頭內變化.由於這個原因,漸變比突變更難以檢測.早期的工作主要在突變檢測,近來更多的研究集中到對漸變的分析.

鏡頭檢測的方法可以分為兩類:非壓縮域的和壓縮域的.在[12][13]中,對各種非壓縮域的鏡頭檢測演算法進行了實驗評價.與非壓縮域的方法相比,基於壓縮域的方法不需要對視訊編碼流進行解碼,而是直接使用如DCT係數,運動向量,巨集塊(macroblock)資訊等壓縮域特徵進行分析,從而提高了處理速度[14][15][16][17].今天大量的視訊資料是以壓縮格式(如MPEG)儲存的,因此基於壓縮域的方法往往具有更大的實用價值.

2,語義標註

所謂語義標註,是指對體育視訊中的語義事件進行檢測和標註,其實質就是依據事先定義好的類別對視訊片段進行識別.當前,國內外對體育視訊研究實際上主要集中在這個方面,下面介紹一下相關工作.

Y. Gong等首先提出了對足球比賽視訊的分析[18].他們結合足球比賽的領域知識,通過場地白線識別,攝像機運動檢測,足球和運動員檢測等分析,對視訊內容進行推斷,包括處在球場什麼位置,射門,角球等.例如,如果場景接近球門區域而且足球有一個向球門的運動,則可以推斷這是一個射門.實驗結果表明,系統對於球場位置的識別較為準確,達到90%,但是射門和角球的識別率只有53%,這主要是因為高速運動和遮擋關係,使得足球的檢測較為困難.