基於愛好的電子商務資料探勘技術的研究

才智咖 人氣:7.31K
基於愛好的電子商務資料探勘技術的研究
[摘要] 本文對電子商務Web頁資料探勘技術做了全面分析,對於個性化電子商務網站中難以發現使用者愛好行為特徵題目,給出了Web頁面關聯演算法。利用資料倉庫技術可有效挖掘使用者愛好特徵,從而指導電子商務網站資源的組織和分配,為商務型網站的投資者和建立者提供正確的盈利導向。
  [關鍵詞] 電子商務資料探勘愛好特徵
  資料探勘技術是隨著資料庫技術和人工智慧技術發展起來的一種新型的交叉資訊科技。無論是B2B、B2C還是B2G電子商務模式,商品的採購者都需要通過Web方式與商品的供給商及其合作者之間建立資訊流的互動,面向電子商務的資料探勘的特點就是從Web資料庫中,運用關聯、分類、聚類等技術手段,從中提取出可以指導市場策略的有用資料。它基於“消費者過往的行為預示著其今後的消費傾向”的原理,通過收集、分析和處理從網上獲取的有關消費者消費行為的資料,從潛伏的、隱含的、事先不知的狀態,經過提取、洗滌、加工變為潛力巨大的價值資訊,從而實現網路營銷的目的,確定特定消費群體或個體的消費習慣、愛好、傾向,進而預示出消費者下一步的消費行為,有針對性地提供服務。
  
  一、電子商務Web資料探勘技術
  
  1.電子商務Web資料探勘技術的分類
  電子商務Web資料探勘一般可分為三個部分:內容挖掘、結構挖掘、用法挖掘。Web內容挖掘有兩種策略:直接挖掘文件內容和在其他檢索工具搜尋的基礎上進行改進。Web結構挖掘是從WWW上的組織結構和連結關係中推導知識。Web用法挖掘的主要目標是從Web的訪問記錄中抽取感愛好的模式。大多數基於資料庫的資料探勘方法均可作用於電子商務Web資料探勘。
  在研究以電子商務網上購物為應用背景的工作時發現。商家在Web上建立自己的線上商品目錄,顧客(即使用者)通過瀏覽器可以瀏覽商品目錄、實現網上訂購甚至網上支付等。使用者與商家的Web伺服器間互動的過程資訊(包括使用者的登入資訊、使用者的瀏覽記錄)以及使用者的個人扼要資訊等,都能以日誌檔案或顧客資料庫的形式存在,從中找出規律性,對商家的市場銷售是至關重要的;從大量顧客資料及日誌資料中,應用到計算機並行處理、神經元網路、模型化演算法和其他資訊處理技術手段,挖掘出有意義的使用者訪問模式及相關的潛伏顧客群,從中可得到商家用於向特定消費群體或個體進行定向營銷的決策資訊。同時有效地對這些Web日誌進行定量分析,揭示其中的關聯關係、時序關係、頁面類屬關係、客戶類屬關係和頻繁訪問路徑、頻繁訪問頁面等,不但可為優化Web站點拓撲結構提供參考,而且還可為企業更有效地確認目標市場、改進決策獲得更大的競爭上風提供幫助。
  
  2.電子商務Web資料探勘模型構建和基本流程
  電子商務Web伺服器自動收集客戶瀏覽資訊並儲存在訪問日誌、引用日誌和代理日誌中。典型的電子商務Web伺服器日誌檔案包括以下資訊:IP地址,請求時間,方法(如get),被請求檔案的URL,HTTP版本號,返回碼,傳輸位元組數,引用頁的URL和代理。
  電子商務Web挖掘,首先對日誌檔案進行預處理,預處理主要由兩部分構成:資料清洗(data cleaning)和事務識別(transaction identification)。包括對Web日誌進行清洗、過濾和轉換以及無關記錄的剔除,判定是否有重要的.訪問沒有被記錄,並從中抽取感愛好的資料;並將URL、資源的型別、大小、請求的時間、在資源上停留的時間、請求者的Internet域名、使用者、伺服器狀態作為資料cube的維數變數;再將對模組、頁面和檔案請求次數,來自不同Internet域請求次數、事件、會話、頻寬、錯誤次數、不同瀏覽器種類、使用者所在組織作為度量變數建立data cube;而將檔案、影象指令碼及多媒體等其他檔案轉換成可用於Web使用挖掘的資料格式,從而可將資料探勘技術用於Web流量分析、典型的事件序列分析和使用者行為模式分析及事務分析。