基于可擴展的網頁關鍵信息抽取研究論文

時間：2021-04-14 16:23:04 論文我要投稿

基于可擴展的網頁關鍵信息抽取研究論文

　　1 引言

基于可擴展的網頁關鍵信息抽取研究論文

　　網頁的關鍵信息是網頁的最基本的信息，它體現了該網頁和其他網頁的差別。常見的關鍵信息有正文、作者、來源、發布時間等。在網絡輿情監控、網絡情報分析、搜索引擎等重大網絡應用中，這些關鍵信息都是后期分析挖掘必不可少的基礎數據。需要利用網絡信息抽取技術從網頁中抽取出這些關鍵信息。從某種角度上講，關鍵信息的抽取質量直接決定了網絡應用服務的效果。因此，網頁的關鍵信息抽取研究具有重大的應用價值。

　　隨著網頁規模呈指數級增長，在網絡應用中，模板無關的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優勢成為信息抽取環節的主流算法。該算法通常針對特定需求，利用一些經驗規則處理特定領域或特定格式的網頁。因為抽取過程無需人工干預，所以此類算法越來越多地應用于實際網絡環境中。基于模板的信息抽取算法充分利用了動態網頁的規律：網頁是由同一個模板生成的，屬于模板的符號不會變化，變化的只是模板中填充的數據。因此，該算法在對動態網頁進行抽取時能夠取得較高的精度。

　　但是，這兩類抽取算法也存在著其固有的缺陷。模板無關的全自動抽取算法通常基于過強的假設。在處理多樣性日益顯著的網頁時，常常因為某些網頁不符合假設，而導致出現抽取精度不能滿足需求的情況；并且由于使用過多規則，導致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時，需先針對某類網頁學習出模板，后人工標注。面對日益增多的數據源，會導致網絡應用的運維代價過大；同時日益復雜的網頁使得模板的準確性下降，從而導致抽取精度下降。

　　針對上述模板無關的全自動信息抽取算法和基于模板的信息抽取算法的缺陷，本文進行了深入研究。本文的貢獻主要有以下兩點。首先，提出了一種可擴展的網頁關鍵信息抽取框架。該框架通過輸入訓練網頁或其他算法的抽取結果，生成關鍵信息模板集。再通過模板的正交過濾算法，生成候選的關鍵信息模板。最后通過模板的特征過濾算法，生成最終的關鍵信息模板。利用該模板可快速、準確地從同類型網頁中抽取關鍵信息。該框架很好地融合了模板無關的全自動信息抽取算法和基于模板的信息抽取算法，使得兩類算法能夠充分發揮各自的優點，并在缺點方面互相彌補。實驗結果表明，該框架能夠在抽取精度、抽取效率方面有本質上的提高。此外，該框架具有很好的可擴展性，框架中的一些關鍵環節可根據需求進行替換。其次，本文提出了模板的正交過濾算法，該算法將訓練網頁或其他算法的抽取結果分成若干份，生成若干個模板，再通過模板的正交過濾算法，過濾掉模板中的噪音部分，得到候選模板。將該算法引入基于模板的抽取算法中，能夠從本質上提高生成的模板的準確性，最后的實驗結果也充分驗證了這一結論。

　　2 相關工作

　　網頁信息抽取是一種針對網絡數據源和網頁進行深度處理和加工的過程。由于網頁的復雜性和多樣性，使得網頁信息抽取算法也越來越多。常見的網頁信息抽取算法主要可分為4類：包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預，所以在實際的工程應用中，基于模板的信息抽取算法和模板無關的全自動信息抽取算法以其較強的實用性占據了主流的位置。基于模板的信息抽取通常基于這樣的假設：待抽取的網頁是由同一個模板生成的，屬于模板的'符號不會變化，變化的只是模板中填充的數據。符合這種生成模型的網頁都可以利用網頁模板分析方法來抽取。互聯網上大量存在的動態網頁是由機器生成的（例如論壇）網頁。基于模板的信息抽取的工作流程是：

　　1）利用多個同類型網頁中具有共性的不變的部分生成一個模板；

　　2）根據模板對同類型網頁進行抽取。因為此類算法過濾了網頁中的大量模板，只留下了數據，同時自動還原出了數據的結構，使得用戶在付出較小人工代價的同時，能夠獲得較為準確的關鍵信息。因此此類算法一直都是網絡應用中的主流算法。但是該類算法具有這樣的缺陷：首先需要針對同類型的網頁生成一個模板。模板的準確性直接決定了后續信息抽取的精確度。隨著網頁復雜性以及同一類型網頁的差異性的增大，生成的模板準確性隨之降低。模板無關的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經驗規則處理特定領域或特定格式的網頁，例如，經典的全自動信息抽取算法MDR。該算法的缺陷在于通常基于過強的假設。以網頁正文抽取為例。網頁的正文往往是各大網絡應用都需要的關鍵信息，有不少針對正文抽取的模板無關的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標簽的密度來確定正文所在的范圍。CETD結合了二者優點。這些算法自動化程度高，通用性強，但是效率較低，且假設過強，精確度不如基于模板的算法。VIPS是一種通用性較強的算法，但是它需要渲染網頁。因此這種方法的效率較低。

　　在以往的文獻中，較少看到將模板無關的全自動信息抽取算法和基于模板的信息抽取算法結合使用的相關研究。在本文提出的框架中，巧妙地將這兩種算法有機地結合起來，使得二者能夠取長補短，從本質上提高信息抽取的質量。

【基于可擴展的網頁關鍵信息抽取研究論文】相關文章：

基于數據抽取與訂閱實現數據共享分析及研究論文10-30

合理定價評審抽取研究論文03-30

有關合理定價評審抽取的研究論文04-03

基于多單片機的串口擴展設計論文11-17

基于科技信息共享云服務機制研究論文11-02

基于Web的農機推廣信息系統的研究與設計論文11-02

基于GIS的農業動態信息共享網絡平臺研究論文11-07

基于CDI0理念下的《網頁設計》教學思考與研究的論文01-11

基于視覺搜索因素的網頁設計論文11-15