基於WEB文字挖掘的統計分析VB+ACCESS

才智咖人氣：1.61W

基於WEB文字挖掘的統計分析
---使用者興趣建模與中文網頁自動分類

摘要本文介紹了運用Web文字挖掘技術，在Windows平臺上實現使用者興趣建模和智慧網頁推薦系統的方法和過程。首先簡要介紹了目前國內外的研究動態和水平，然後介紹了興趣模型的相關知識，主要包括：web文字挖掘的分類，web文字挖掘的靜態和動態統計分析，興趣模型的發現與建立，使用者興趣模型的獲得與實現，中文分詞技術等內容。在簡單介紹現有演算法的基礎上，經過實踐調查統計，根據課題的需要和實際情況，提出1種相對簡單的使用者興趣模型的建立和實現的方法。並用VB 6.0 和Access 2003實現了相關功能。

關鍵詞: Web文字挖掘; 網誌分析；統計分析；使用者興趣模型; 中文分詞

Stat and Analyse Based on Web Textual Mining
---User’s Interests Modeling and Chinese Pages Auto-Classify

Abstract In this paper,introduced the method and process of how to realize User’s Interest Modeling and Chinese Pages Commend System on Windows platform,which uses Web Textual the begining,we introduce the resemble thesiss research developments and level at home and ,we introduce the correlation knowledge of interest modeling,which include the classes of Web Textual Mining,static and dynamic statistic and analyze of Web Textual Mining,detect and build the interest model,obtain and realize the users interest model,Chinese Split Word technique the tasks requirements and practical situation,after introduced some algorithm in existence we produce a relative simple way of users interest modeling and the realize methods,by investigate and systems realize tool is Microsoft VB 6.0 and Microsoft Access 2003.
Keywords：Web Textual Mining; Web-log analyse; Stat and analyse; User’ s Interests Model;Word split

目錄
1 前言 1
1.1 課題背景 1
1.2 國內外研究動態和水平 1
1.3 本文的主要工作 2
1.4 課題研究的意義 3
1.5 論文的大致結構 3
2 WEB文字挖掘 4
2.1 資料探勘 4
2.1.1 WEB挖掘的概述及分類 4
2.1.2 Web 挖掘的任務 5
2.1.3 Web資料探勘幾個步驟 6
2.1.4 Web資料探勘的分類 7
2.2 WEB 文字挖掘 9
3 興趣模型的發現與建立 11
3.1 現有演算法介紹 11
3.1.1 使用者主動提供 11
3.1.2 相關反饋 12
3.1.3 現有興趣發現演算法的`缺陷 13
3.2 靜態和動態相結合的方法 13
3.2.1 Web訪問動機的靜態分析 14
3.2.2 Web訪問動機的動態分析 17
3.3 結論與模型的建立 17
3.3.1 根據隱式反饋[6]建立和更新使用者興趣模型 17
4 使用者興趣模型獲得與實現 22
4.1 COOKIES 22
4.1.1 Cookies的概述及屬性 22
4.1.2 Cookies的存取方法 23
4.1.3 Cookies安全需求和造成的安全威脅 24
4.1.4 Cookies的作用 25
4.2 收藏夾分析 26
4.1.1 獲取 “收藏夾”檔案 26
4.1.2 收藏夾的目錄結構 28
4.1.3 如何分析網誌中的頁面 28
4.3中文分詞技術介紹 30
4.3.1 中文分詞和對興趣收集的重要意義 30
4.3.2 CSW 5.0 中分片語件簡介 32
4.3.3本系統呼叫CSW5. DLL 示例 33
4.4 VB中的鉤子 34
4.4.1 鉤子的概述和分類 34
4.4.2 VB中鉤子的實現 36
5 中文網頁自動分類技術 38
5.1 文件自動分類演算法的型別 38
5.2 實現中文網頁自動分類的1般過程 39
5.3 影響自動分類的關鍵因素 40
5.3.1 分類體系 40
5.3.2 特徵提取 41
5.3.3 分類演算法介紹 41
6 系統設計與實現 42
6.1系統可行性研究 42
6.1.1 背景 42
6.1.2可行性研究的前提 42
6.1.3要求 42
6.1.4進行可行性研究的方法 42
6.1.5裝置 42
6.1.6 侷限性 43
6.1.7 技術條件方面的可行性 43
6.1.8 社會因素方面的可行性 43
6.1.9 結論 43
6.2需求分析 43
6.2.1任務概述 43
6.2.2需求規定 44
6.2.3 資料管理 45
6.2.4 故障處理要求 45
6.2.5 執行環境規定 45
6.3總體設計 45
6.3.1 系統實現方案 45
6.3.2 功能模組分解 45
6.3.3 資料庫設計 46
6.4詳細設計 47
6.4.1 結構程式設計 47
6.4.2 人機介面設計 53
6.5系統實現 53
7 結論 54
致謝 55
參考文獻 56
附錄1 CSW 5.0分詞軟體DLL介紹 57
附錄2 漢語詞性對照表[北大標準/中科院標準] 61
附錄3 部分程式原始碼 63

1 前言
1.1 課題背景
    近年來，Internet的網路和應用都在以驚人的速度在發展。根據中國網際網路絡資訊中心2003年1月公佈的中國網際網路絡發展狀況的統計資料，在中國，上網計算機總數達到2083萬，上網使用者總數達到5910萬，WWW站點數約為371600個。而就全世界而言，上網使用者數達到數億。同時，各種各樣的網路應用早己走進各行各業，尤其是遠端教育、電子商務、搜尋引擎等等。但是由於 Internet是1個開放、分佈的資訊空間，它本身所固有的 3個特點己經明顯地阻礙了人們充分地使用 Internet上的資訊資源:[1]（1） Internet上可利用的資訊是無組織的，多種結構形式的，並且分佈在全世界的各個站點上;（2）資料和服務的型別以及數量每天都在大量增加，因而資訊可利用性和可靠性也在不斷地變化;（3）由於資訊源的動態性以及潛在的有用資訊的更新和儲存問題，資訊常常是模糊的:有時甚至是錯誤的。由於上述原因，在 Internet上進行資訊檢索經常會出現“資訊過載”，即網上的資訊是海量和無組織的，易發生“資源迷向”，即使用者不知道如何更加有效地利用資源等問題。
    人們迫切需要1些智慧的和個性化的工Internet系統，能學習和了解使用者的興趣愛好，成為使用者的助手或祕書，能幫助使用者從浩如煙海的工Internet資訊中快速而準確地搜尋出他們感興趣的內容:
能為使用者提供主動的、最新的資訊服務和推薦;能幫助使用者實現個性化的遠端學習等。而這些系統的基礎都離不開1個 “個性化的使用者興趣模型”。
    電子商務(E-Business)發展到現在，它提供的高效和安全的服務，讓人們體會到了Internet應用的神奇。但是，電子商務服務提供商和使用者同時對它的提出了新的要求：如何才能象現實生活中的商家和客戶交流1樣，商家為客戶推薦適合其興趣愛好的商品和服務，這在現實生活中，是靠商家與客戶的多次不同形式的交流達到的，然而，通過什麼的途徑，能夠在Internet上，在商家與客戶沒有見面的環境下達到這1點呢。根據使用者顯式反饋的資訊，進行綜合整理，也許是1條途徑，但是這裡麵包含了太多的主觀和不確定因素。隱式反饋成了人們關注的焦點，通過對使用者靜態的動態的興趣體現，通過統計分析得到使用者興趣，從而為使用者量身定製web服務和page推薦，當然，這不可避免地涉及到個人隱私問題。本課題就是在這樣的背景下提出來的。

TAGS：文字 VBACCESS Web 統計分析