一種網(wǎng)頁正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備
基本信息
申請?zhí)?/td> | CN202110719543.9 | 申請日 | - |
公開(公告)號 | CN113392354A | 公開(公告)日 | 2021-09-14 |
申請公布號 | CN113392354A | 申請公布日 | 2021-09-14 |
分類號 | G06F16/958(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 辛國貿(mào);王瑞霜;吳士偉;陳通;盧鳳;楊春 | 申請(專利權(quán))人 | 山東億云信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 | 代理人 | 祖之強(qiáng) |
地址 | 250014山東省濟(jì)南市高新區(qū)新濼大街2008號銀荷大廈B座3層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本公開提供了一種網(wǎng)頁正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備,獲取網(wǎng)頁HTML源代碼;對網(wǎng)頁HTML源代碼進(jìn)行預(yù)處理;根據(jù)預(yù)處理后的網(wǎng)頁HTML源代碼生成文檔對象模型樹;根據(jù)獲取的文檔對象模型樹,定位發(fā)文日期所在的塊并獲取其節(jié)點(diǎn);根據(jù)發(fā)文日期塊節(jié)點(diǎn)獲取正文塊節(jié)點(diǎn);根據(jù)正文塊節(jié)點(diǎn)獲取正文塊XPath及正文塊HTML;本公開解決了低密度網(wǎng)頁正文提取的問題,提升了網(wǎng)頁正文的提取準(zhǔn)確率,提高了工作效率,節(jié)省了人力成本。 |
