資料探勘的讀書筆記

才智咖 人氣:2.83W

導語:資料探勘一般是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與計算機科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。目前喲普與大資料時代的到來,資料探勘在很多高等院校已經成為一門獨立的學科。下面是資料探勘的相關讀書筆記。歡迎大家閱讀。

資料探勘的讀書筆記

一、資料探勘概念(即什麼是資料探勘)

我們生活在資料時代,各行各業每天都產生巨大的資料。資料的爆炸式增長、廣泛可用和巨大數量使得我們的時代成為真正的資料時代。急需功能強大和通用的工具,以便從海量資料中發現有價值的資訊,把這些資料轉換成有組織的、可利用的知識。這種需求導致了資料探勘的誕生。

資料探勘實際上是從資料中挖掘知識,由以下步驟的迭代組成:

(1)資料清理(消除噪聲和刪除不一致資料)

(2)資料整合(多種資料來源可以組合在一起)

(3)資料選擇(從資料庫中提取與分析任務相關的資料)

(4)資料變換(通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式)

(5)資料探勘(基本步驟,使用智慧方法提取資料模式)

(6)模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)

(7)知識表示(使用視覺化和知識表示技術,向用戶提供挖掘的知識) 關係資料庫是資料探勘最常見、最豐富的資訊源,因此它是我們資料探勘研究研究的一種主要資料形式。

二、資料探勘技術(即怎樣進行資料探勘)

1、可以挖掘什麼型別的模式  特徵化與區分、頻繁模式、關聯和相關性挖掘,分類與迴歸,聚類分析,離群點分析。  資料探勘可以被用來進行市場分析和管理、風險分析和管理、缺陷分析和管理等。

2、使用什麼技術

1)首先要認識資料,一個數據物件代表一個實體,又稱樣本、例項、資料點或物件。   屬性是一個數據欄位,表示資料物件的一個特徵,又稱維、特徵和變數。

2)資料描述  中心趨勢度量:均值、中位數和眾數  度量資料散佈:極差、四分位數、方差、標準差和四分位數極差 通過基於畫素的視覺化技術等清晰有效的表達資料

3)進行資料預處理,包括資料變換與資料離散化。  資料變換策略:光滑、屬性構造、聚集、規範化、離散化、由標稱資料產生概念分層  資料離散化策略:分箱、直方圖分析、聚類決策樹和相關分析

4)然後需要建立資料倉庫進行處理,資料倉庫:是一種資料庫,它允許將各種應用系統整合在一起,為統一的歷史資料分析提供堅實的.平臺,對資訊處理提供支援。資料倉庫的構建需要資料整合、資料清洗和資料統一。

5)聯機分析處理可以,在使用多維資料模型的資料倉庫或資料集市上進行,使用資料立方體結構,OLAP操作可以有效的實現。

資料立方體計算的一般策略:    排序、雜湊和分組    同時聚集和快取中間結果

當存在多個子女方體時,由最小的子女聚集    可以使用先驗剪枝方法有效的計算冰山立方體

資料立方體計算方法:     多路陣列聚集,基於稀疏陣列的、自底向上的、共享計算的物化整個資料立方體  BUC,通過探查有效的自頂向下計算次序和排序計算冰山立方體  Star-Cubing,使用星樹結構,整合自頂向下和自底向上計算,計算冰山立方體  外殼片段立方體,通過僅預計算劃分的立方體外殼片段,支援進行高維OLAP

6)挖掘頻繁模式和關聯規則  頻繁項集挖掘方法:  Apriori演算法(通過限制候選產生髮現頻繁項集),由頻繁項集產生關聯規則,提高Apriori演算法的效率,挖掘頻繁項集的模式增長方法,使用垂直資料格式挖掘頻繁項集,挖掘閉模式和極大模式