基於聚類分析的資料探勘方法

才智咖人氣：1.93W

基於聚類分析的資料探勘方法

目錄
前言 1
1 相關理論 2
1．1 資料探勘（DATA MINING）理論 2
1．1．1 概念 2
1．1．2 資料探勘的任務 2
1．1．3 資料探勘的應用 3
1．1．4 資料探勘的發展現狀 4
1．2 聚類（CLUSTERING）理論 5
1．2．1概念 5
1．2．2聚類演算法的分類 5
1．2．3分割聚類方法 6
1．2．4聚類演算法的應用 6
1．3 WEB資料探勘理論 7
1．3．1 文字檢索概念 7
1．3．2 Web資料探勘概念 8
1．3．3 Web資料探勘工作原理 8
1．3．4 Web挖掘分類及各自的研究現狀及發展 9
1．4 ASP理論 11
1．4．1概念 11
1．4．2 ASP伺服器（IIS） 12
1．4．3 ASP程式的釋出與執行 13
1．4．4 ASP的內建物件 13
1．5 資料庫理論 14
1．5．1 SQL概念 14
1．5．2 Microsoft Access 2003資料庫介紹 15
1．5．3 Access資料庫的安全性 15
2 需求分析 17
2．1 任務概述 17
2．1．1研究背景 17
2．1．2問題提出 17
2．1．3研究現狀 17
2．1．4研究目標 18
2．2 資料需求 18
2．2．1靜態資料 18
2．2．2動態資料 19
2．2．3資料庫描述 19
2．2．4資料採集 19
2．3 功能需求 19
2．4 效能需求 19
2．4．1資料精確度需求 19
2．4．2適應性需求 20
2．5 執行需求 20
2．5．1使用者介面 20
2．5．2執行環境 21
3 概要設計 22
3．1 總體設計 22
3．1．1總體結構 22
3．1．2處理流程 22
3．1．3模組設計 24
3．2 介面設計 26
3．2．1外部介面 26
3．2．2內部介面 26
4 詳細設計 27
4．1 系統結構 27
4．1．1系統框架 27
4．1．2資料流圖 28
4．2 模組詳細設計 28
4．2．1人機互動模組 28
4．2．2聚類分析模組 31
4．2．3資料庫模組 33
4．3 資料字典 34
5 編碼與實現 36
5．1 人機互動模組實現 36
5．1．1資料庫連線部分 36
5．1．2查詢匹配部分 37
5．1．3結果顯示部分 37
5．2 聚類模組實現 38
5．2．1分詞部分 38
5．2．2文字向量空間模型部分 39
5．2．3聚類部分 40
5．3 資料庫模組實現 41
5．3．1網路蜘蛛（spider） 41
5．3．2資料庫表 41
6 效能測試與分析 41
6．1 測試例項的研究與選擇 41
6．2 測試環境與測試條件 41
6．2．1測試環境 41
6．2．2 Web伺服器的安裝 41
6．3 例項測試 43
結束語 45
參考文獻 46
致謝 47

摘要本設計課題為基於聚類分析的資料探勘方法，為實現這1課題，我利用ASP技術，設計了1個Web搜尋引擎。通過對搜尋引擎的優化，使其對檢索的初始結果進行聚類分析，返回結果給使用者。從而也實現了“基於聚類分析的資料探勘方法”這1目標。搜尋引擎我設計了3個模組，分別為人機互動模組、聚類模組、資料庫模組3個模組。人機互動模組通過ADO物件進行資料庫連線。當用戶輸入關鍵字，檢索資料庫的網頁資料，得到初始資料結果集，聚類模組對這些結果進行聚類分析，再把聚類結果返回給使用者。由於Web文字是無結構或半結構化的'，進行聚類分析之前要對文字建立向量空間。建立向量空間模型，首先對文字分詞，再掃描文字提取特徵值，計算這些特徵值的權重，依據文字相似度對文字進行聚類，聚類演算法採用k-means演算法。最後把結果返回給使用者。資料庫模組設計了兩個表，1個儲存網頁資料，另1個表是分詞時所需要用到的表，資料的獲取，由開源網路蜘蛛執行。通過設計實現，基本實現了基於聚類分析的資料探勘方法的初衷。
關鍵詞資料探勘；聚類分析；搜尋引擎；文字向量

The method of Data Mining Based on Clustering Analysis

Abstract this design concentrates on data mining method which based on clustering analysis. In order to realize this task, I design a web search engine with the technique of ASP. From optimizing the search engine, the early results can be proceeded clustering analysis. This can make the similar results in a cluster. Finally, the search engine returns these results to the user. Also, from this, I can give my voice to the "The method of Data Mining Based on Clustering Analysis ". The search engine composes with the module of user, the module of clustering and the module of database. The module of user connect database with the object of ADO. After users enter the key words and recall the web page data of database, the user could get the initial results. The module of clustering clusters these results, and returns the results to the user. Because web text editing is non-structure or half-structure, vector space should be established for text editing before carry out clustering. In order to establish vector space model, the words should be extracted from the text editing firstly. Then the trait value should be extracted after the scanning of the text editing. According to the similar sign, the results make together. The method bases on k-means. Finally, return the results to the user. In the module of database, I design two tables. One is a data of web; the other is a dictionary table. From a spider, I can get the web data on the Internet and save this data to the database. From this design, I carry out the method of data mining based on clustering. .
Key words Data Mining; Clustering; Search Engine; Text Vector

前言
網路和儲存技術的迅猛發展，使資料的傳播和積累速度不斷提高，但當我們為擁有極其詳盡的資料而欣喜的同時，也發現新的資料處理和提煉技術非常匱乏。面對日益龐大的資料資源，人們迫切需要更強有力的工具來“挖掘”其中有用的資訊。資料探勘就是針對這1要求而發展來的。
近年來, Internet 已成為計算機領域最熱門的1項技術,Internet 的普及使人們可以突破空間、地域的限制,方便地共享資源。但在實際使用中,Web 網上龐大的資料量會給使用者的資訊查詢帶來極大的困難。鑑於此,各種搜尋引擎應運而生,比較有名的有Yahoo 、Alta Vista、Google、百度、北大天網等,另外還有許多針對新聞、論壇、音樂、遊戲等的搜尋引擎。
現階段網上大多數搜尋工具都採用列表式目錄連結和關鍵詞查詢的方式,只要在題名和文章中含有該關鍵詞,則返回給使用者,這樣往往帶來大量的無用資訊,難以找到真正有用的內容。而現代社會的競爭趨勢要求必須對Web 上大量複雜的資訊進行實時地和深層次地分析,從中找出真正有價值的資訊知識。因此,人們迫切感到需要1種新的技術,可以從Web 海量的資料中自動地、智慧地抽取隱藏於這些資料中的知識。於是Web 挖掘作為資料探勘技術和Web 的結合應運而生了。Web 挖掘不僅能夠幫助人們迅速找到所需要的資訊,還能挖掘出使用者的潛在需求,主動向使用者提供資訊。理想的Web 挖掘可以在網路上實現阮岡納讚的“圖書館5定律”,即在Web 上實現“資訊是為了用的;每個使用者有其資訊;每個有用資訊有其使用者;節省使用者的時間;網路是1個生長中的有機體”。如果把整個網路看成1個巨大的數字圖書館則理想的Web 挖掘就相當於圖書館員,是網路資訊海洋的導航者,能夠從Web 海量資訊中找到有用的知識。由於目前Web 頁面的重要資訊主要集中在Web 的文字中,而聚類分析作為資料探勘的1個重要功能,也能作為1個獨立的工具來獲得資料分佈的情況。可以有效的對Web文字進行聚類，是檢索度大大提高。
現在對搜尋引擎進行聚類，普遍採用下面的方法：首先建立Web文字向量空間模型，把非結構化或半結構化的文字文件轉換成結構化的向量空間模型（即把文字轉化成數字表示的形式）。再對Web文字進行聚類。在搜尋引擎應用中，常採用的聚類演算法現階段文字聚類以層次凝聚法(以G- HAC 演算法為代表) 和平面劃分法(以K- Means 演算法為代表) 為主。此外也有研究工作者改進的聚類演算法。
本文中，作者描述採用k-means演算法設計的1個搜尋引擎。通過聚類演算法的應用，使搜尋引擎檢索精確度有了很大提高。但是由於作者的水平、時間有限，設計實現的功能不是很完善，本論文也存在1些缺點和錯誤，殷切希望老師批評指正。

TAGS：資料探勘聚類分析