一種網(wǎng)頁正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備

基本信息

申請?zhí)?/td> CN202110719543.9 申請日 -
公開(公告)號 CN113392354A 公開(公告)日 2021-09-14
申請公布號 CN113392354A 申請公布日 2021-09-14
分類號 G06F16/958(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 辛國貿(mào);王瑞霜;吳士偉;陳通;盧鳳;楊春 申請(專利權(quán))人 山東億云信息技術(shù)有限公司
代理機(jī)構(gòu) 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 代理人 祖之強(qiáng)
地址 250014山東省濟(jì)南市高新區(qū)新濼大街2008號銀荷大廈B座3層
法律狀態(tài) -

摘要

摘要 本公開提供了一種網(wǎng)頁正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備,獲取網(wǎng)頁HTML源代碼;對網(wǎng)頁HTML源代碼進(jìn)行預(yù)處理;根據(jù)預(yù)處理后的網(wǎng)頁HTML源代碼生成文檔對象模型樹;根據(jù)獲取的文檔對象模型樹,定位發(fā)文日期所在的塊并獲取其節(jié)點(diǎn);根據(jù)發(fā)文日期塊節(jié)點(diǎn)獲取正文塊節(jié)點(diǎn);根據(jù)正文塊節(jié)點(diǎn)獲取正文塊XPath及正文塊HTML;本公開解決了低密度網(wǎng)頁正文提取的問題,提升了網(wǎng)頁正文的提取準(zhǔn)確率,提高了工作效率,節(jié)省了人力成本。