??? 摘 要:通過實驗對網頁結構和特點進行綜合分析,給出對網頁分塊的原則和方法,在分塊的基礎上根據網頁中噪音的出現規則提出了一種消除網頁噪音的方法,使搜索引擎對網頁的預處理階段有效消除網頁中的無關項和間接項的超連接,從而大大提高了搜索引擎的檢索質量。
??? 關鍵詞:檢索質量;分塊模型;搜索引擎
?
??? 隨著Internet的快速發展,大量的信息呈現在用戶面前,據統計,國內Web網頁數量達3億以上[1],上網用戶總人數達8 700萬,將獲取信息作為上網最主要目的網民所占比例最多,達到42.3%[2]。數據表明,Internet已成為人們獲取信息的重要資源,而Google、Yahoo、百度、新浪、天網等中英文搜索引擎是人們徜徉信息海洋、獲取信息的工具。然而,人們面對如此豐富的Web資源,使用搜索引擎發現自己真正需要的信息卻并非容易。一方面,各搜索引擎不斷改進檢索技術來提高返回結果的精度,在一定程度上解決了人們獲取信息的問題;另一方面,由于搜索引擎自身的問題,返回的結果與用戶的要求仍有一定的距離,用戶對搜索引擎的滿意度不太高。主要表現為查詢結果中普遍存在大量的無關項和不含具體內容的間接項,造成搜索結果數量大、結果不精確、有用的結果淹沒在無用的結果之中的局面。用戶不得不花費大量的時間在查詢結果中尋找相關項,使得用搜索引擎來查找信息的目的難以達到。這種結果的原因之一是目前的搜索引擎沒有對網頁進行處理或只做了簡單的處理。
??? 目前的搜索引擎采用以關鍵字檢索為基礎的檢索技術[3-4],即搜索引擎按關鍵字對整個網頁進行索引和檢索。在這種處理方法中,所有出現在網頁中的字詞都被用作索引項,但實際的網頁中常常包含大量的與網頁主題無關的文字。例如,圖1和圖2是以“河北人民出版社”為關鍵字的檢索結果。圖1所示網頁的主要內容是關于2004十大印象圖書介紹,其中包括上海人民出版社出版的《達芬奇密碼》,在網頁中注明的出處是新華網河北頻道。在這個網頁中包含了“河北”和“人民出版社”,搜索引擎誤把它當做“河北人民出版社”的相關項。圖2所示網頁的主要內容是一些圖書的介紹,在左邊的導航欄中出現了河北人民出版社的連接,真正提供具體信息的應該是它指向的那個頁面,而那個頁面也應該能被檢索到,因此,圖2所示網頁是多余的間接項。
?

?

??? 如果搜索引擎在對網頁標引時,把整個網頁上不同主題、不同作用的文字混合在一起進行處理,那么,在檢索過程中根本無法排除如圖1所示的無關項。使用站點聚類技術,把出現在同一個站點上的結果項進行合并,雖然可以排除大部分如圖2所示的間接項,但是耗費了查詢時間。本文提出一種在標引前對網頁進行預處理的方法,能夠排除上述的無關項和間接項。
??? 目前的搜索引擎對網頁的預處理較簡單,幾乎保留了HTML網頁上所有的文字,這樣固然可以保證查全率,但從目前的網絡資源巨大豐富的角度來看,提高查準率對用戶更具有實際意義。在研究領域里,有人提出了基于HTML標記結構的規律對特定網站進行信息抽取[5],但不滿足搜索引擎對多種多樣的網站進行處理的要求;有人提出“語義塊”的概念對網頁內容分層,但沒有具體的實現方案[6];對于超連接的研究主要集中在對它所指向的頁面在檢索中的作用[7],但很少有人研究超連接對網頁的負面影響。
1 HTML網頁的塊結構模型和解析方法
1.1 HTML網頁的塊結構模型
??? 通過對大量的網頁進行分析,發現人們在設計網頁時通常是把網頁設計成幾個區域,把不同主題、不同作用的文字安排在不同的區域。結合HTML標記的特點,認為網頁是由塊組成的,塊中可以再嵌套塊。因此,HTML網頁的塊結構模型是:{<塊起始標記><塊內容><塊結束標記>[,<塊起始標記><塊內容><塊結束標記>,…]}。其中,塊內容中可以再包含塊。實際的網頁大多是由多層的塊嵌套構成的。
1.2 分塊原則及算法
??? HTML塊標記有
、
、
、
、
、
等。在實際應用中,塊的劃分要合理。塊劃分得過多,會把相關的內容劃分到不同的塊區,這樣將導致網頁與查詢關鍵字的相關度降低;塊劃分得過少,會把不相關的內容劃分到同一個塊區,這樣將導致查準率的降低。例如,一篇文章由標題、作者、出處和多個段落組成,顯然這些文字應劃分在同一個塊區。經過對大量網頁的統計分析,不外乎兩種情況。一種是網頁中不包含
標記,只有一篇文章,顯然,這類網頁只有一個塊區;另一種是網頁中包含多個
標記,而一篇文章的標題、作者、出處和多個段落一般安排在某一個表格的一個或多個單元格中。因此,將網頁中的表格(
標記)做為塊區比較合理。 ??? 分塊原則如下: ??? (1)如果網頁中包含水平線標記
,首先按水平線分塊; ??? (2)在上述分塊的基礎上,如果包含
、
中包含水平線標記
,再按水平線分塊。 ??? 分塊算法如下: ??? 查找水平線標記,插入塊標記; ??? While(文件沒有結束) ??? {查找塊起始標記和結束標記,位置存入tableLoc() ; ??? 同時,在tableSym中簡記為b和e; } ??? 將tableLoc中的位置數據排序,同時調整tableSym中的b、e標記; ??? While(tableSym中的標記數不等于0) ??? { 查找“be”; ??? 提取塊; ??? tableSym中的標記數減2;} 1.3 消除噪聲的規則 ??? 人們在制作網頁時,總是準備了一定的素材,這些素材是網頁設計者希望通過網頁傳達給訪問者的信息。但同時也會在網頁中增加一些連接到其他網頁的超連接,而這些超連接文字的作用僅僅起著向導作用,與頁面主題無關,它們的加入會影響到頁面的原貌,把這樣的超連接文字定義為網頁的“噪聲”,把網頁中原本要表達的內容定義為網頁的“主題內容”。 ??? 通過對大量網頁的統計分析,噪聲主要來源于超連接文字,但并非所有的超連接文字都是噪聲,因此要準確地消除網頁中的噪聲也并非容易。 ??? 網頁中的超連接文字可分為3類: ??? (1)超連接文字在網頁中僅僅起著向導作用,其目的是提供一個訪問目錄。超連接文字在它所指向的網頁中還會出現,這些頁面能夠被搜索引擎搜索到。因此,這類超連接文字是本網頁的噪聲。一般說來,這類超連接文字的前后還是超連接文字,所以噪聲通常聚集成塊。 ??? 需要說明的是索引網頁中的超連接文字雖然是網頁的主題,但是超連接文字在它所指向的網頁中還會出現,這些頁面通常能夠被搜索引擎搜索到,所以,本網頁不必出現在搜索結果中。 ??? (2)超連接文字在網頁中具有向導和陳述的雙重功能,超連接文字引向另一個網頁或本網頁的其他位置的同時,本身也是網頁主題內容的一部分,這樣的超連接文字也是網頁的主題內容,而不是噪聲。一般說來,這類超連接文字的前后的文字不是超連接。 ??? (3)超連接文字所指向的目標文件中不會出現此超連接文字,目標文件是搜索引擎不能直接搜索到的文件。例如,超連接文字指向的目標是MP3格式文件、exe格式文件或圖片格式文件等,這些超連接文字不能視為網頁的噪聲。 ??? 從網頁的結構上看,(1)類超連接文字聚集成塊,超連接文字與塊區內所有文字的比值R接近于1;(2)類超連接文字處在主題內容塊區,超連接文字與塊區內所有文字的比值R遠小于1。通過實驗確定兩個閾值R1和R2。若R>R1,則確定為噪聲;若R??? 根據上面的分析,在對網頁分塊的基礎上確定消除網頁噪聲的規則: ??? (1)在塊區中掃描超連接,如果超連接指向的目標是網頁,則將此超連接文字標記為準噪聲;如果超連接指向的目標不是網頁,則在網頁中保留此超連接文字。 ??? (2)統計塊區內超連接文字數量及文字的總數量并計算其比值R,若R>R1,保留準噪聲標記;若R??? (3)檢查超連接前后相鄰的文字是否是超連接,如果相鄰的超連接數S大于某一閾值,將此超連接文字的準噪聲標記刪除。 2 實驗及結果分析 ??? 本文開發了一個HTML網頁解析器實現了上述算法。實驗中使用的網頁都是根據著名搜索引擎的搜索結果下載的真實網頁。實驗中參數的取值分別是:R1=0.9;R2=0.3;S=3。由于文章篇幅的限制,在此略去實驗結果的圖片。 ??? 實驗一是網頁的分塊實驗,實驗中對數十個網頁進行了分塊,正確率達100%;實驗二使用100個網頁進行了消除(1)類超連接文字噪聲的實驗,其中98個網頁的無關項超連接和間接項超連接都被消除;實驗三和實驗四是保留(2)類超連接文字和(3)類超連接文字的實驗,正確率達100%。 ??? 實驗二的正確率與R1、R2、S的值有關。對于參數S而言,如果值過小,就會把一些有用的超連接文字消除,例如文章的標題、作者、出處都有超連接時,這些文字是網頁的重要內容,不應消除;如果S的值過大,會將一些噪聲保留。通過對大量網頁的統計分析,認為S取值為3較合適,這樣即使在網頁中保留一些噪聲,由于數量較小,對網頁的影響也不大,同時對網頁有用的超連接文字也不會被誤認為是噪聲而消除。 ??? 本文介紹的網頁解析方法在搜索引擎和數據挖掘方面具有重要的意義和應用前景。通過消除網頁的噪聲,使網頁的主題更加突出。在搜索引擎的返回結果中排除了無關項和間接項,提高了搜索引擎的查準率;在網絡使用行為挖掘領域,分析用戶感興趣的網頁方面,由于排除了噪聲的干擾,使得分析結果更準確。 參考文獻 [1]?中國互聯網信息中心. 2003年中國互聯網絡信息資源數量調查報告,信息資源開發利用調查報告[DB/OL].http://www.cnnic.net.cn/download/ manual/report20030330.doc: 60. [2]?中國互聯網信息中心. 第十四次中國互聯網絡發展狀況調查統計報告(2004年7月)[DB/OL].http://www.cnnic.net.cn/download/2004/2004072002.pdf [3]?杜阿寧,方濱興,胡銘曾,等. 中文交互式網絡搜索引擎及其自學習能力[J].計算機工程與應用,2003(10):148-150. [4]?陳俊杰,薛云,宋翰濤,等. 基于Agent的元搜索引擎的研究與設計[J].計算機工程與應用,2003(10): 33-36. [5]?KUSH M N, WELD DS,DOOREMBOS. Wrapper Induction for Information Extraction,proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, 1997: 729-735. [6]?CARCHIOLO V, LONGHEU A, MALGERIM. Malgeri,M.,Structuring the Web,Database and Expert Systems Applications,2000.Proceedings.llth International Workshop on,1123-1127,2000. [7]?N.Cras well, D. Hawking,S. e. Robertson,Effective Site Finding Using Link Anchor Information,SIGIR 2001,2001.
本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
|