基于馬爾可夫隨機場的網(wǎng)頁正文提取方法
基本信息
申請?zhí)?/td> | CN201310210384.5 | 申請日 | - |
公開(公告)號 | CN103309961A | 公開(公告)日 | 2013-09-18 |
申請公布號 | CN103309961A | 申請公布日 | 2013-09-18 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 柳立寧 | 申請(專利權)人 | 北京智海創(chuàng)訊信息技術有限公司 |
代理機構 | 北京愛普納杰專利代理事務所(特殊普通合伙) | 代理人 | 北京智海創(chuàng)訊信息技術有限公司 |
地址 | 100095 北京市海淀區(qū)清河三街同源大廈9層917室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種網(wǎng)頁正文的提取方法及裝置,該方法包括如下步驟:順序解析HTML文本,對HTML文本進行預處理;對預處理后的HTML文本抽取標簽文本窗,獲得標簽文本窗集合,標簽文本窗為標簽包圍的內容文本及其相關屬性;對標簽文本窗依據(jù)相鄰關系構建馬爾可夫隨機場模型;以文本長度和標簽類型為基本特征,采用最小偏差閾值法初始化馬爾可夫場模型;根據(jù)標簽文本窗的行號及相鄰窗的字符間隔,采用ICM方法對馬爾科夫隨機場模型進行優(yōu)化;以及根據(jù)優(yōu)化后的馬爾科夫隨機場模型重構正文,得到抽取的正文,本發(fā)明可應用于信息檢索領域的自動文摘和自動分類系統(tǒng),具有抽取精度高、抽取速度快、維護代價低、適應性強、靈活性高等優(yōu)點。 |
