淺談基於web日誌挖掘的網路教學系統的設計與實現

才智咖 人氣:5.96K

論文關鍵詞:web日誌挖掘 網路教學 聚類

淺談基於web日誌挖掘的網路教學系統的設計與實現

論文摘要:現有的網路教學系統,雖然自身資訊量極其豐富,但教師對學生的學習情況缺乏瞭解,無法滿足學生個性化的學習需求。Web日誌全面記錄學生網上學習的行為,是解決問題的有效方法,文章設計並實現了Web日誌挖掘系統,從中發現相似的學生群體,以及瀏覽興趣路徑,幫助教師及時調整站點結構提供寶貴的建議參考。 

  一、引言
  針對某課程的網路教學系統網站的伺服器上每天記錄了大量的學生網上學習的行為記錄的,通過對Web日誌進行挖掘可[1]以幫助任課教師瞭解哪些教學內容學生比較感興趣,網站的使用情況,根據發現的資訊對網站結構進行改進,以吸引更多的學生來進行網上學習,提高網站的服務效率。
  二、系統需求分析
  基於以上的目的,以某職業院校的某課程的網路教學系統為研究物件,設計並實現了Web日誌挖掘系統,取得了較好的實驗效果。系統主要是對該網路教學系統的日誌資料進行取樣、預處理[2],然後運用基於選擇路徑和瀏覽頁面的`聚類演算法對處理後的資料進行模式分析,獲得Web站點使用者的瀏覽興趣路徑和使用者聚類群。
  三、系統功能模組
  系統的功能包含員和使用者兩部分。管理員主要是設定取樣時間、配置挖掘引數,修改網站拓撲結構資訊;使用者主要是實施Web日誌挖掘,進行使用者[3]識別、會話識別、事務識別、最後得到使用者瀏覽興趣路徑。
  (一)管理員功能
  管理員主要是該網站的建設者以及該課程的實訓教師負責設定取樣時間、設定挖掘引數、新增網頁改變網站結構。
  1.設定取樣時間:實現從大量的Web日誌資料中選取基於配置檔案中的取樣時間段的日誌資料的功能,並將獲取該時間段的日誌資料儲存到資料庫中。管理員通過修改配置檔案更改取樣時間段(以天為單位)。
  2.設定挖掘引數:挖掘引數包括會話超時時間、選擇路徑興趣度所佔的權重wr、瀏覽頁面興趣度所佔的權重wn、瀏覽興趣[4]路徑使用的閾值。會話超時時間前人實驗得到的經驗值為25.5分鐘,管理員可重新設定;選擇路徑興趣度所佔權重與瀏覽頁面興趣度所佔權重之和為1。預設設定為wr=0.5,wn=0.5,可進行更改。
  3.調整網站拓撲結構:包括調整頁面順序,新增新的頁面,刪除過時的頁面等。
  (二)普通使用者功能
  普通使用者主要指該課程的任課教師、學生以及該系部的教務員。
  1.使用者識別:依據規則從日誌中識別不同使用者,並儲存使用者訪問資訊。主要有2個規則:第一,不同的使用者名稱(UserID)代表不同的使用者;第二,不同的IP地址代表不同的使用者。
  2.會話識別:根據會話識別規則,對使用者資料進行會話識別,得到使用者一系列的會話資料。同時提供了基本的會話資訊,如使用者的瀏覽路徑序列。會話識別後,將會話資訊儲存會話資訊表中,以備事務識別使用。
  3.事務識別:根據規則將使用者會話序列分割為事務,並將事務序列資訊儲存事務資訊表中,作為使用者聚類的資料輸入。
  4.使用者聚類:依照聚類演算法,把所有使用者劃分為不同的使用者群,並將使用者群資訊存入使用者群表中,作為系統的最終資料。
  5.瀏覽興趣路徑:找出使用者瀏覽興趣模式,同時得到瀏覽興趣路徑的相關資訊,包括瀏覽興趣路徑序列。
  四、系統結果分析
  實驗以某職業院校網路教學管理系統伺服器上的日誌為研究物件,蒐集了8周的資料,作為系統的測試用例。從實驗結果中可以看到,瀏覽興趣路徑的長度一般不超過5。這就表示在設計教學網站時網站深度不要太深,避免給使用者訪問造成不便。從總體來看,學生瀏覽的路徑分為3大類,分別是檢視作業、通知、課件。而教學大綱以及視訊檢視的人寥寥無幾。本演算法的執行時間與網站的URL數目n有關係,它的時間複雜度為O(n2)。因此在該網站中當不斷的增加新的頁面時,演算法的執行時間也會隨之增加。當網站的頁面數目超過20時,該演算法有待於進一步驗證。
  參考文獻:
  [1]胡迎鬆,寧海霞.一種新型的Web挖掘資料採集模型[J].工程與科學,2007,29(2):36-39
  [2]陳峰.基於Web日誌的使用者興趣聚類研究[D][碩士學位論文].合肥:合肥大學,2008
  [3]任曉霞.一種Web日誌資料探勘系統的設計與實現[D][碩士學位論文].北京:北京郵電大學,2008
  [4]胡可雲,田鳳占,黃厚寬.資料挖據理論與應用[M].北京:清華大學出版社,北京大學出版社,2008