搜尋引擎中的網路蜘蛛技術探析

才智咖 人氣:1.94W
搜尋引擎中的網路蜘蛛技術探析

摘要:搜尋引擎技術可以從海量的網路資訊中獲得我們想要的資訊,隨著網路資訊資源的急劇增長其作用越來越顯著。本文介紹了搜尋引擎技術中的網路蜘蛛,分析了其對檔案的處理方法,研究了其搜尋與更新策略。
  關鍵詞:搜尋引擎;網路蜘蛛;更新策略
  
  一 網路蜘蛛工作原理
  
  網路蜘蛛,即搜尋引擎機器人程式。將整個網際網路想象成一張很大的蜘蛛網,而搜尋引擎機器人程式通過連結來抓取資訊的過程就像是蜘蛛在這張網上爬來爬去一樣。網路蜘蛛是通過連結地址來尋找網頁的。它由一個啟始連結開始抓取網頁內容,同時也採集網頁上的連結,並將這些連結作為它下一步抓取的連結地址,如此迴圈,直到達到某個停止條件後才會停止。停止條件的設定通常是以時間或是數量為依據,有時也會以連結的層數來限制網路蜘蛛的執行。
  
  二 網路蜘蛛與網站的互動問題
  
  網路蜘蛛訪問一個網站,通常會去尋找一個特殊的文字檔案,這個檔案如果存在的話通常會放在網站的根目錄下。它是專門用來同網路蜘蛛互動用的專用檔案。它會將網站管理者的意思傳遞給訪問它的網路蜘蛛,告訴網站同意或是禁止某些或是所有蜘蛛訪問網站的某個特定的網頁或者目錄。它的結構和語法都比較簡單,一般網路蜘蛛都可以很容易的理解網站的意思。正規的搜尋引擎通過讀取這個檔案可以很方便的理解網站的意思並按照網站管理者的意思來進行友好的訪問。但是這個僅僅只是網路的一個約定協議而以,並沒有對其制定相應的強迫手段,更沒有提出相應的懲罰,所以這個約定對於遵守者是有效的,但對於那些不懂生規矩的蜘蛛是一點作用都沒有。
  在網頁中的Meta欄位同樣也可以放入和上面檔案相同效用的內容,它可以告訴網路蜘蛛這個網頁對於網站管理者來說,是需要被收錄還是僅僅被瀏覽或是根本就不允許蜘蛛訪問。這個欄位通常會放在文件的頭部,通過讀取這個欄位,蜘蛛可以在沒有讀取到全部文件的情況下就瞭解文件的相關資訊,可以避免將無效的網頁取下來後又將其廢棄而造成無謂的浪費。同樣這個規則也是沒有特殊限制的,遵守程度完全靠網路蜘蛛的自覺性和網站的設計方式來決定。為了讓網站被搜尋引擎搜尋到,尤其是那些網站所有者希望網路蜘蛛採集的網頁,網站的設計者通常會在網站中放入一個叫做的網頁,並將它作為網站的入口檔案。
  
  三 網路蜘蛛對於檔案的處理
  
  (一)二進位制檔案處理
  網路上除了有大量的HTML檔案和XML檔案外,也有大量的二進位制檔案。為了使網頁的內容更加豐富,圖片和多媒體檔案被網頁大量的引用。它們在網頁上也是以超連結的形式出現的,因而在連結提取的階段它們也是會被放在待訪問佇列中。對於二進位制檔案通過檔案的內容來完成檔案的索引是不現實的,現在的技術還沒有達到可以通過二進位制檔案來理解檔案內容的地步。因而對於這些檔案的處理一般是採用單獨處理的方式,其內容的理解完全需要依靠二進位制檔案的錨點描述來完成。錨點描述通常代表了檔案的標題或是基本內容。錨點資訊一般是由引用網頁來提供,而不是放在二進位制檔案本身。二進位制檔案由於種類的差別問題,也需要分別來進行處理。
  
  (二)指令碼檔案的處理