《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 綠網摘要提取系統算法研究
綠網摘要提取系統算法研究
來源:微型機與應用2013年第12期
龍 瓏1, 鄧 偉2
(1. 廣西師范學院 計算機與信息學院, 廣西 南寧530023; 2. 廣西腫瘤防治研究所, 廣西
摘要: 隨著互聯網的普及和發展, 傳統的文本摘要的提取方法已無法適應綠色網絡提供優質內容并過濾不良文本的社會需求。提出通過條件隨機場模擬對句子進行注解的方法提取文本摘要。實驗證明新方法提取文本的效果有效并可提供更好的過濾不良文本的服務。
Abstract:
Key words :

摘  要: 隨著互聯網的普及和發展, 傳統的文本摘要的提取方法已無法適應綠色網絡提供優質內容并過濾不良文本的社會需求。提出通過條件隨機場模擬對句子進行注解的方法提取文本摘要。實驗證明新方法提取文本的效果有效并可提供更好的過濾不良文本的服務。
關鍵詞: 綠色網絡; 提取信息; 不良文本; 過濾; 條件隨機場

    目前尚未發現“綠色網絡”權威定義,現階段只能將其理解為可預防網民患上網癮流行病的計算機網絡[1-2]。基于行為分析的綠色網絡系統軟件的設計目的是為了預防青少年感染不良的網癮行為。基于行為分析的綠色網絡系統中提取文本摘要子系統(下文稱綠網摘要提取系統)采用智能的方法濃縮文本信息,從而使基于行為分析的綠色網絡系統能快速有效地識別過濾對青少年有不良影響的文本,保留青少年獲得感興趣并對他們身心有益的文本。
    在如何快速準確提取文本摘要這個問題上,不少學者進行了大量有價值的研究。Baxendale提出引入句子位置判斷句子重要性的方法提取文本摘要[3]。Luhn列出高頻詞并打分,分數高的句子被認定為文本摘要句[4]。AONE C等提出基于TF-IDF樸素貝葉斯模型的算法提取文本摘要[5-7]。KUPIE C J等通過增加句長方法改進樸素貝葉斯模型的算法提取文本摘要[8]。金立左等提取文本摘要使用基于最大熵模型,增加了先驗概率,從而優于所有基于樸素貝葉斯模型的方法[9-11]。
    針對文本摘要更新較快和多樣性的特點,本文提出通過條件隨機場模擬對句子進行注解來達到提取文本摘要的方法。實驗表明該方法可有效地提取文本摘要,為綠色網絡系統是否過濾該文本提供依據。
1 綠網摘要提取系統摘要主要特征
    文本摘要具有三個基本的特征:源自文件、保留文本重要信息、長度短。因此要滿足以上特點,很多因素會影響一個句子是否被認為是文本摘要句。影響分為兩大類,第一類是句子自身因素,也稱單句特征;第二類是文本上下文信息因素,稱為關聯特征。
1.1 句子自身特征
    句子自身特征是指不涉及文本上下文信息也能體現出句子本身的特征。下文列舉出幾種句子自身因素。
    (1)長度特征,由于文本摘要基本不會出現過短或過長的句子,先過濾掉句子中的停用詞,然后以詞為單位計算目標句子的長度,最終本文算法選取最短和最長的閥值分別為38和6。
    (2)位置特征,位置因素是文本預料的重要特征因素,首句、尾句、段首和段尾是最重要的影響提取文本摘要的幾個特征,本文采用了首段、尾句、段首和段尾的位置特征因素。標記詞語特征,判斷摘要句的標記詞語,例如“表示”等,統計表明,約有30%句子含有標記詞語,本文算法利用這些詞語判斷摘要句。
    (3)高頻詞特征,高頻詞是指出現在目標文本頻率較高的句子,詞頻越高,證明該詞語的重要程度越大,所在的句子代表性越強,本文算法在停用詞被過濾后,再度量使用高頻詞。
    (4)時間、數字及專有名詞特征,文章的焦點基本是命名實體,算法選擇句子時決定使用時間、數字以及專有名詞。
1.2 上下文關聯特征
     一個句子是否被綠網摘要提取系統選擇為摘要句,除了句子自身的特征影響外,受到上下文關聯特征的影響也是很大的。綠網摘要提取系統選擇兩種基本的關聯特征。
    (1)與文本標題相似度的關聯特征。文本信息包含在標題中,研究發現句子與標題相似度越大,則出現在摘要的可能性越大。
    (2)與文本其他句子的相似度的關聯特征。實際開發中綠網摘要提取系統把使用該特征看作尋找“高頻句”的相似過程,原理與高頻詞原理相似,建模公式為:
  

其中,x為綠網摘要提取系統目標文本;Length(x)為綠網摘要提取系統目標文本的長度,即系統目標文本所包含的句子數。
3 實驗測試結果及分析
3.1 實驗測試預料

    本文實驗的測試數據來源于廣西軟件測試中心,從搜狐、新浪、網易以及鳳凰網4個網站上采集了35 220篇文本,其中既有不宜青少年閱讀的文本,也有適合青少年閱讀的文本,將這些平均分為5等份,4份用于訓練,1份用于測試,測試使用交叉驗證方法。
3.2 實驗測試評測方法
    為了更好地評價綠網摘要提取系統測試實驗效果,采用準確率、召回率和F值3個標準指標來衡量,其中F值是本次測試最重要的評價指標。綠網摘要提取系統測試實驗結果的計算公式為:
 
    從表1的實驗結果可以看出,綠網摘要提取系統使用基本條件隨機場模型的綜合效果(即F值)好于系統使用其他兩種模型,召回率不如系統使用樸素貝葉斯模型。算法設計小組觀察標注的結果發現,當系統選取目標文本過長時,使用條件隨機場提取摘要句子分布會過于分散,位于文本中部的句子其位置特征相對分散,導致誤判,從而綠網摘要提取系統使用基本條件隨機模型提取目標文本的摘要的召回率低一些。算法設計小組對本次測試統計發現,有54%的文本超過10句,24%的文本超過20句,文本越長,綠網摘要提取系統使用基本條件隨機模型提取目標文本的摘要的效果越差。
    表2 列出了第二組測試的實驗結果。

 

 

    從表2實驗結果可以看出,綠網摘要提取系統使用合適的修正因子條件隨機場模型后,召回率提高了15.4%,綜合效果(F值)也提高了1.6%,在一定程度上提高了F值,取得更好的效果。
    綠網摘要提取系統采用增加修正因子的方法改進條件隨機模型可以克服目標文本因文本過長所造成的影響。從實驗效果來看,使用修正因子可以提高提取摘要的效果,今后可重點考慮在算法模型中增加更多因素的修正因子,以提高模型算法的提取效果。
參考文獻
[1] 寧葵,龍瓏,覃曉,等.綠色網絡不良內容語義分析方法研究[J].計算機應用研究,2010,27(12):4643-4645.
[2] 龍瓏,鄧偉.綠色網絡智能文摘算法研究[J].計算機應用, 2012,32(7):2030-2032.
[3] BAXENDALE P. Machine-made index for technical literature-an experiment[J]. IBM Journal of Research Development, 1958,2(4):354-361.
[4] LUHN H P. The automatic creation of literature abstracts[J].  IBM Journal of Research Development,1958,2(2):159-165.
[5] AONE C, OKUROWSKI M E, GORLINSKY J, et al. A  trainable summarize with knowledge acquired from robust NLP techniques[C].In Mani, I.and Maybury,M. T., editors, Advances in Automatic Text Summarization, 71-80. MIT Press. 1999.
[6] PANG B,LEE L,VAITHYANTHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]. Processdings of the Conference on Empirical Methods in  Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2002:79-86.
[7] 何鳳英.基于語義理解的中文博文傾向性分析[J].計算機應用,2011,31(8):2130-2137.
[8] KUPIEC J, PENDERSEN J, CHEN F. A trainable document summarizer[C]. Proceedings of SIGIR‘95, 68-73,New York, NY,USA,1995.
[9] 金立左,袁曉輝,趙一凡,等.二維模糊劃分最大熵圖像分割算法[J].電子與信息學院,2002,2(8):1040-1048.
[10] 張龍凱, 王厚峰. 文本摘要問題中的句子抽取方法研究[J].中文信息學報,2012,26(2):97-101.
[11] 屈志毅,李一偉,張延堂,等.一種基于關鍵重復語義的最大熵文本分類[J].廣西師范大學學報(自然科學版), 2007,25(4):204-207.

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 亚洲阿v天堂2021在线观看 | 99精品国产综合久久久久 | 玖玖玖精品视频免费播放 | 欧美videos极度另类 | 香蕉视频久久 | 国产欧美日韩视频免费61794 | 亚洲大尺度视频 | 日皮在线观看 | 五月天婷婷免费观看视频在线 | 亚洲aⅴ在线 | 日韩国产精品欧美一区二区 | 国产成人欧美一区二区三区vr | 日本黄色www | 国产黄在线观看免费观看软件视频 | 一级成人毛片免费观看 | 久久精品综合视频 | 毛片大全在线 | 国产大片线上免费观看 | 亚洲伊人成综合人影院小说 | 日韩毛片免费视频 | 日本 片 成人 在线 日本3级网站 | 糟蹋小少妇17p | h视频免费观看 | 国产乱人伦精品一区二区 | 欧美一级日韩一级亚洲一级va | 免费人成年短视频在线观看网站 | 5g影院天天爽爽 | 欧美亚洲不卡 | 亚洲国产黄色 | 99热青青草 | 欧美另类日韩中文色综合 | 欧美日韩国产一区二区三区伦 | 亚洲成人欧美 | 国产成人午夜精品免费视频 | 亚洲综合色视频 | 亚洲色图1 | 日韩免费一区二区 | 欧美综合国产 | 免费看黄的网站在线看 | 国产欧美精品区一区二区三区 | 青青青国产依人在线视频97 |