一種網(wǎng)頁(yè)正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN202110719543.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113392354A 公開(kāi)(公告)日 2021-09-14
申請(qǐng)公布號(hào) CN113392354A 申請(qǐng)公布日 2021-09-14
分類(lèi)號(hào) G06F16/958(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 辛國(guó)貿(mào);王瑞霜;吳士偉;陳通;盧鳳;楊春 申請(qǐng)(專(zhuān)利權(quán))人 山東億云信息技術(shù)有限公司
代理機(jī)構(gòu) 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 祖之強(qiáng)
地址 250014山東省濟(jì)南市高新區(qū)新濼大街2008號(hào)銀荷大廈B座3層
法律狀態(tài) -

摘要

摘要 本公開(kāi)提供了一種網(wǎng)頁(yè)正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備,獲取網(wǎng)頁(yè)HTML源代碼;對(duì)網(wǎng)頁(yè)HTML源代碼進(jìn)行預(yù)處理;根據(jù)預(yù)處理后的網(wǎng)頁(yè)HTML源代碼生成文檔對(duì)象模型樹(shù);根據(jù)獲取的文檔對(duì)象模型樹(shù),定位發(fā)文日期所在的塊并獲取其節(jié)點(diǎn);根據(jù)發(fā)文日期塊節(jié)點(diǎn)獲取正文塊節(jié)點(diǎn);根據(jù)正文塊節(jié)點(diǎn)獲取正文塊XPath及正文塊HTML;本公開(kāi)解決了低密度網(wǎng)頁(yè)正文提取的問(wèn)題,提升了網(wǎng)頁(yè)正文的提取準(zhǔn)確率,提高了工作效率,節(jié)省了人力成本。