web資料探勘技術分析與研究

才智咖 人氣:8.13K

1Web資料探勘面臨的問題

web資料探勘技術分析與研究

目前面向Web的資料探勘面臨的問題,主要有兩個方面:

1.1資料庫環境的異構型

Web上的每個站點就是一個數據源,資料來源之間是異構的,外加上各個站點的資訊和組織的不同,Web網站就構成了一個巨大的異構資料庫環境。要對這些資料進行挖掘,首先,要解決各個站點之間的異構資料整合,提供使用者統一介面,從複雜的資料來源中取得所需的有用的資訊知識。其次,有關Web上的資料查詢。

1.2資料結構的半結構化

Web上的資料比較複雜,各個站點的資料都獨立設計,具有動態可變性。雖然Web上的資料形成半結構化資料。這些問題是進行Web資料探勘所面臨的最大困難。

2XML技術在Web資料探勘中的優勢

Web資料的異構使Web資料探勘變得十分困難,通過XML可以解決這個問題。因為XML文件具有很好的自我描述性,他的元素、子元素、屬性結構樹可以表達極為豐富的語義資訊,能夠很好的描述半結構化的資料,因此在網路資料整合、傳送、處理和顯示的方面。開發人員能夠用XML的格式標記和交換資料。XML在三層架構上為資料的處理提供了有用的途徑。利用XML,Web設計人員能夠構建文件型別定義的多層次互相關聯的系統、元資料、資料樹、樣式表和超連結結構。基於XML的Web資料探勘技術,能夠使不同來源的結構化的資料很容易地結合在一起,解決Web資料探勘的難題。

2.1XML技術在Web資料探勘中具體作用利用XML技術我們在Web資料探勘中可以完成以下幾點:

2.1.1整合異構資料來源

XML是一種半結構化的資料模型,可以完成和關係資料庫中的屬性一一對應,從而實施精確地查詢與模型抽取。XML可以搜尋多個不同資料庫的問題,以實現整合。

2.1.2和異構資料進行交換

在Web資料探勘程中,使用者需要和異構資料來源進行資料交換,XML通過自定義性及可擴充套件性來標識各種資料,從而描述從各站點蒐集到的Web頁中的資料。XML的出現解決了資料查詢的統一介面。

2.1.3過濾資訊並顯示

XML描述資料本身,可以使得定義的資料以不同的方式顯示,對獲取的資訊進行裁減和編輯以適應不同使用者的需求。以不同的瀏覽形式提供給不同的使用者。

3基於XML的Web資料探勘模型

我們通過對XML及Web資料探勘的分析,設計了一個基於XML的Web資料探勘模型通過提供一個Web資料探勘的整合環境,提高資料探勘系統的整體效能。工作流程如下:系統根據使用者要求蒐集Web資源,經資料轉換器處理成相應的XML資料儲存,提供給挖掘器使用;挖掘器則根據要求從選取相應的演算法挖掘,輸出挖掘結果;使用者根據自己的滿意度,獲得需要的挖掘結果,調整挖掘要求進入新一輪資料探勘。通過系統的維護我們可以加入新的挖掘演算法,實現升級。

3.1各模組具體功能

3.1.1資料收集

從Web站點上採集資料並存儲,獲得挖掘內容。針對異構資料來源,可以多種方式提出相關需求,挖掘的重點是Web內容和Web使用的資料。把使用者訪問網站留下原始日誌資料進行清洗、過濾和轉換處理,轉變成統一處理的資料結構,構建日誌資料庫。

3.1.2轉換器

對檢索得到的資料用XML技術進行預處理,建立半結構化資料模型,抽取其特徵的元資料,用結構化的形式儲存,為挖掘模組提供所需的資料。

3.1.3挖掘器

不同的挖掘演算法有不同適用情況,挖掘綜合器根據具體的需求和挖掘方法的不同選擇策略到挖掘演算法庫中去選擇挖掘演算法或種組合演算法執行挖掘任務。隨著應用的深入,知識庫中的演算法和規則不斷的豐富。挖掘演算法庫是挖掘分析方法的綜合庫,以插拔的形式組織存放各種挖掘演算法。314結果生成與評估以直觀的方式提交挖掘結果,便於使用者的評估。通過模式分析和興趣度度量,若結果使得使用者滿意,資料探勘結束,輸出使用者感興趣的內容;否則可以在此重新提出挖掘要求,重新挖掘。

3.2系統各模組實現方法

3.2.1資料收集

資料的收集也涉及資料探勘的技術,其過程是:通過人工輸入辦法,給出查詢主題,找到相關的'Web頁,然後,通過相應的資料探勘的演算法對訓練資料集提煉,利用提煉出的資料模式,進行更大範圍的搜尋,以獲取更多的資料來源。最終形成較新和有效XML文件。

3.2.2資料的轉換處理

資料抽取轉換是模型實現一個重要環節,其主要方法是把現有的Web頁面轉換成XML格式,並使用相關工具處理XML結構資料檢要把HTML中含有的與主題無關的標記過濾掉,然後轉化到XML的格式儲存。目前Web頁面到XML文件的轉換,有兩部分資料構成:一是XML資料,二是非XML資料。XML資料,可以直接將它們提交給下一個模組。對於非XML資料,本文的實現方法是用到Tidy以改正HTML文件中的常見錯誤並生成格式編排良好的等價文件,還可以使用Tidy生成XHTML(XML的子集)格式的文件。通過構造相應的Java類完成將資料從HTML到XML的轉換。

3.2.3挖掘方法

(1)文字分類:文字分類是指按預先定義的主題類別,把集合中的每個文件確定一個所屬類別。這樣,使用者能夠方便地瀏覽文件,並限制搜尋範圍來使查詢更為容易。利用文字分類技術對大量文件進行快速、有效地自動分類。有關的演算法通常採用TFIDF和NaiveBayes等方法。

(2)文字聚類:文字聚類與分類的不同之處在於,聚類不需要預先定義好的主題類別,它是將把文件集合分成若干個簇,要求同簇內文件內容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類假設,即與使用者查詢相關的文件通常會聚類比較靠近,而遠離與使用者查詢不相關文件。可以利用文字聚類技術把搜尋引擎檢索結果分成若干個簇,使用者只要考慮那些相關的簇,就能夠縮小所需要瀏覽的結果數量。目前,常用的文字聚類演算法,分為兩種:以G-HAC等演算法為代表的層次凝聚法,以k-means等演算法為代表的平面劃分法。

(3)關聯分析:關聯分析是指從文件集合中發現不同詞語之間關係Brin提出一種從大量文件中查詢一對詞語出現模式演算法,在Web上尋找作者和書名的模式,從而發現數千本在Amazon網站上查詢不到的新書。

(4)模式評價:Web資料探勘中十分重要的過程就是模式評價。常用的方法有預留法和交叉實驗法,將資料分成訓練集和測試集兩部分,學習和測試反覆進行,最後用一個平均質量模型來確定模型質量的好壞。

(5)預留法:從資料集合隨機抽取預定大小一個子集作為測試集,其他資料則作為訓練集。

(6)交叉驗證法:把整個資料集合按照所要進行的學習測試迴圈次數分成一定數目的子集,在每次迴圈中,選取其一個子集作為測試集,其它子集並集則作為訓練集。

4結束語

XML技術不僅為Web上的資料交換提供了一個標準,而且能夠更好的表示資料內容,以及資料的含義。隨著XML的興起和完善,Web頁面會蘊涵更多的結構化和語義的資訊,因此,基於XML技術的資料探勘已成為目前Web挖掘的研究熱點。當然Web資料探勘這一研究領域還有待於進一步研究。