萬(wàn)維網(wǎng)網(wǎng)頁(yè)信息提取方法、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN201810214406.8 申請(qǐng)日 -
公開(公告)號(hào) CN108520007B 公開(公告)日 2021-09-28
申請(qǐng)公布號(hào) CN108520007B 申請(qǐng)公布日 2021-09-28
分類號(hào) G06F16/957(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 孫洋 申請(qǐng)(專利權(quán))人 江河瑞通(北京)技術(shù)有限公司
代理機(jī)構(gòu) 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 代理人 賈磊;王濤
地址 100085北京市海淀區(qū)信息路28號(hào)7層A646
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種萬(wàn)維網(wǎng)網(wǎng)頁(yè)信息提取方法、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備,該方法包括:通過(guò)互聯(lián)網(wǎng)超文本傳輸協(xié)議獲取萬(wàn)維網(wǎng)網(wǎng)頁(yè)的HTML文檔;從所述HTML文檔提取網(wǎng)頁(yè)信息,包括:從所述HTML文檔提取關(guān)鍵字;將所述HTML文檔分割為正文部分和標(biāo)題部分;根據(jù)詞頻匹配度從所述標(biāo)題部分提取標(biāo)題;通過(guò)匹配日期表達(dá)式從所述HTML文檔提取發(fā)布時(shí)間;通過(guò)底部特征信息分析從所述正文部分提取正文內(nèi)容;從所述正文內(nèi)容提取摘要;其中,所述網(wǎng)頁(yè)信息包含所述標(biāo)題、所述發(fā)布時(shí)間、所述摘要、所述關(guān)鍵字及所述正文內(nèi)容中的一個(gè)或多個(gè)。本發(fā)明能夠從萬(wàn)維網(wǎng)網(wǎng)頁(yè)中提取真實(shí)信息。