基於Web資料探勘的使用者上網興趣收集VB+CSW

才智咖 人氣:3.08W
畢業論文

基於Web資料探勘的使用者上網興趣收集
 
摘  要 在電子商務活動中,為了研究使用者的上網、購買習慣或者提供個性化的服務,往往需要使用者註冊,這種對個人資訊的需求,在1定程度上影響了電子商務的發展。因為網際網路使用者對個人隱私非常關心,在很多情況下使用者不願提供詳細的個人資訊。
獲取個人資訊1方面應在使用者可以接受的範圍內獲取儘可能多的使用者資訊;另1方面應當以儘可能少的、最有價值的使用者資訊來保證電子商務活動的需要。本文通過對使用者上網興趣進行收集,得到使用者的興趣模型,即使用者興趣資料庫。通過VB 6.0和CSW 5.0分詞軟體實現了使用者在個人電腦上的上網興趣收集。通過不斷地收集活動,更新興趣資料庫。電子商務或其它服務提供商,通過獲取該使用者的興趣模型,就可以為使用者提供個性化服務,提高了客戶或使用者與服務提供商交流的效率。
關鍵詞: Web資料探勘; 使用者興趣收集;使用者興趣模型; 中文分詞;網誌分析
 
User’s Web-Pages Interests Collection Based On
Web Data Mining
 
Abstract  In order to offer better personal services, E-Business servers often acquire users’ private information registered by the users. This information needs affect the development of E-Business for everyone is concerned with his own information and afraid of being revealed, consequently. he won’t offer detailed information in many conditions. 
So, it is essential to get users’ information as much as possible while extract the most useful information as little as possible to guarantee the E-Business services. In this paper, we build users’ interest model by acquiring users’ interests continuously. We use VB 6.0 and CSW 5.0 to acquire and analyse users interests, at the same time, update the User Interest Database by tracing the users’ behaviours which reflect their interests. As a result, E-Business or other servers can provide personality and improve the communion fluency between users and providers servers with this model.
Keywords:Web data mining; users’ interests collection; users’ interests modeling; word segmente; web log mining
目錄
前言 2
1 開發環境 3
1.1 MICROSOFT ACCESS 2003 3
1.2 MICROSOFT VB 6.0 3
1.2.1 Visual Basic 6.0 開發平臺 3
1.2.2 Visual Basic 6.0 訪問資料庫 4
2 WEB資料探勘及相關技術探討 6
2.1 WEB資料探勘的概述 6
2.2 WEB文字挖掘及日誌挖掘概述 7
2.3 WEB資料探勘的相關技術 8
2.3.1 Cookies分析 9
2.3.2 收藏夾分析 15
2.3.3 中文分詞介紹 20
2.3.4 鉤子 23
2.4 興趣建模 29
2.4.1 使用者興趣模型的表示 29
2.4.2 建模技術 29
2.4.3 使用者興趣收集資料庫 30
3 系統分析與實現 32
3.1 系統分析及可行性研究 32
3.2 總體設計 32
3.3 資料庫設計 34
3.4 詳細設計 34
3.5 系統關鍵程式碼 38
3.6 部分模組測試後的顯示結果 40
4 總結 42
參考文獻 43
致謝 44
附錄1 CSW簡介 45
附錄2 部分程式碼 47

基於Web資料探勘的使用者上網興趣收集VB+CSW

 
前言
近年來,Internet技術得到了廣泛的應用,並日趨普及,成為全球範圍內傳播資訊的重要手段。目前,Internet使用者可以利用搜索引擎工具,通過輸入關鍵字,獲得自己所需的資訊。Internet上包含了大量的Web站點,每個Web站點就是1個數據源。Web挖掘的資料通常包括3類:(1) 使用者的背景資訊:此類資訊主要來自使用者的註冊資訊。(2) 瀏覽資訊:瀏覽資訊主要來自於瀏覽者的單擊流(Click-stream),這部分資料主要用於考察使用者的行為表現。Web上有海量的的資料資訊,人們在瀏覽網站時,包含了大量的潛在資訊,如個人姓名和住址,單擊了哪1個連線,在哪裡瀏覽時間最多等。 (3) Internet自身資訊:這類資訊來自Web自身,如網頁內容、Web結構等。
在網頁迅速增長的`同時,Web使用者也迅猛地增長。海量的網頁在為人們提供包羅永珍、豐富無比的資訊資源,同時,也向人們提出瞭如何快速、有效地從資訊海洋中獲取其所需資訊的挑戰。由於資訊站點的建立,資訊釋出是大量的、自由且無序的,如果沒有有效的搜尋工具,在網路中查詢資訊如同大海撈針。搜尋引擎在網路資訊資源查詢中起到了相當重要的作用,是最普遍的輔助人們檢索資訊的工具,比如傳統的搜尋引擎Yahoo和新1代的搜尋引擎Google等。
如今,在許多商務活動中,為了研究使用者的上網、購買習慣或者提供個性化的服務,往往需要使用者註冊,這種對個人資訊的需求,在1定程度上影響了電子商務的發展,因為網際網路使用者對個人隱私非常關心,在很多情況下使用者不願提供詳細的個人資訊。因此,在這種情況下,服務提供商就不得不從使用者瀏覽資訊中的1系列相關動作(比如把感興趣的網頁資訊存入收藏夾、在某個網頁上的停留時間等)來推測使用者的興趣,進而為使用者提供個性化服務。
本文通過研究和驗證使用者上網興趣收集的方法,得到提升電子商務價值的途徑。把基於內容的Web挖掘和基於日誌的Web挖掘兩種方法結合起來,在前人的基礎上,研究使用者興趣的收集方法並將收集資料進行組織和建模,得到的使用者興趣模型可以應用於電子服務行業,使之能為使用者提供更加方便及個性化的服務。為檢驗模型的實用性,本文設計1種智慧網頁推薦系統,為網站的每1訪問使用者迅速提供其真正感興趣的網頁。並給出系統的實現演算法。
本論文的研究內容有:對使用者定製資訊的儲存和分類;對使用者收藏的網頁進行分析和特徵提取; 對cookies的讀取與分析;對使用者瀏覽某網頁的動作進行統計分析;綜合使用者興趣愛好,統計使用者興趣排行;建立使用者興趣模型。
本論結構及每章的基本內容如下:
前言給出了論文寫作的背景、工作、研究目標以及研究內容;
第1章開發環境的主要介紹;
第2章詳細介紹了Web資料探勘及相關技術,包括Web文字挖掘概述、Web日誌挖掘概述、Cookies分析、收藏夾分析、中文分詞介紹和鉤子以及使用者興趣建模的相關情況;
第3章進行系統分析與實現;
第4章對本文作了全面性的總結。