基于馬爾可夫隨機場的網(wǎng)頁正文提取方法

基本信息

申請?zhí)?/td> CN201310210384.5 申請日 -
公開(公告)號 CN103309961A 公開(公告)日 2013-09-18
申請公布號 CN103309961A 申請公布日 2013-09-18
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 柳立寧 申請(專利權)人 北京智海創(chuàng)訊信息技術有限公司
代理機構 北京愛普納杰專利代理事務所(特殊普通合伙) 代理人 北京智海創(chuàng)訊信息技術有限公司
地址 100095 北京市海淀區(qū)清河三街同源大廈9層917室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種網(wǎng)頁正文的提取方法及裝置,該方法包括如下步驟:順序解析HTML文本,對HTML文本進行預處理;對預處理后的HTML文本抽取標簽文本窗,獲得標簽文本窗集合,標簽文本窗為標簽包圍的內容文本及其相關屬性;對標簽文本窗依據(jù)相鄰關系構建馬爾可夫隨機場模型;以文本長度和標簽類型為基本特征,采用最小偏差閾值法初始化馬爾可夫場模型;根據(jù)標簽文本窗的行號及相鄰窗的字符間隔,采用ICM方法對馬爾科夫隨機場模型進行優(yōu)化;以及根據(jù)優(yōu)化后的馬爾科夫隨機場模型重構正文,得到抽取的正文,本發(fā)明可應用于信息檢索領域的自動文摘和自動分類系統(tǒng),具有抽取精度高、抽取速度快、維護代價低、適應性強、靈活性高等優(yōu)點。