一種網(wǎng)頁(yè)正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備
基本信息
申請(qǐng)?zhí)?/td> | CN202110719543.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN113392354A | 公開(kāi)(公告)日 | 2021-09-14 |
申請(qǐng)公布號(hào) | CN113392354A | 申請(qǐng)公布日 | 2021-09-14 |
分類(lèi)號(hào) | G06F16/958(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 辛國(guó)貿(mào);王瑞霜;吳士偉;陳通;盧鳳;楊春 | 申請(qǐng)(專(zhuān)利權(quán))人 | 山東億云信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 祖之強(qiáng) |
地址 | 250014山東省濟(jì)南市高新區(qū)新濼大街2008號(hào)銀荷大廈B座3層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本公開(kāi)提供了一種網(wǎng)頁(yè)正文解析方法、系統(tǒng)、介質(zhì)及電子設(shè)備,獲取網(wǎng)頁(yè)HTML源代碼;對(duì)網(wǎng)頁(yè)HTML源代碼進(jìn)行預(yù)處理;根據(jù)預(yù)處理后的網(wǎng)頁(yè)HTML源代碼生成文檔對(duì)象模型樹(shù);根據(jù)獲取的文檔對(duì)象模型樹(shù),定位發(fā)文日期所在的塊并獲取其節(jié)點(diǎn);根據(jù)發(fā)文日期塊節(jié)點(diǎn)獲取正文塊節(jié)點(diǎn);根據(jù)正文塊節(jié)點(diǎn)獲取正文塊XPath及正文塊HTML;本公開(kāi)解決了低密度網(wǎng)頁(yè)正文提取的問(wèn)題,提升了網(wǎng)頁(yè)正文的提取準(zhǔn)確率,提高了工作效率,節(jié)省了人力成本。 |
