一種復雜網(wǎng)頁結(jié)構(gòu)化信息精確提取方法、設(shè)備及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202110701621.2 | 申請日 | - |
公開(公告)號 | CN113254751A | 公開(公告)日 | 2021-08-13 |
申請公布號 | CN113254751A | 申請公布日 | 2021-08-13 |
分類號 | G06F16/951(2019.01)I;G06F16/953(2019.01)I;G06F16/958(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 安永進;武偉;孫江;邵鄭翰 | 申請(專利權(quán))人 | 北森云計算有限公司 |
代理機構(gòu) | 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 | 代理人 | 徐靜 |
地址 | 610041四川省成都市高新區(qū)萃華路89號1棟1單元4001號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種復雜網(wǎng)頁結(jié)構(gòu)化信息精確提取方法、設(shè)備及存儲介質(zhì),該方法包括:針對目標網(wǎng)頁,收集一批樣本網(wǎng)頁;根據(jù)樣本網(wǎng)頁制定各個區(qū)塊的查找規(guī)則和匹配規(guī)則;結(jié)合區(qū)塊情況確定條目的查找規(guī)則和匹配規(guī)則;在區(qū)塊內(nèi)確定定位節(jié)點的查找規(guī)則和匹配規(guī)則;針對字段節(jié)點,確定從定位節(jié)點到此字段節(jié)點的查找規(guī)則和匹配規(guī)則;通過基于規(guī)則或機器學習的方法自動提取各個樣本網(wǎng)頁中的字段信息;根據(jù)提取的字段信息自動生成解析模板;對自動生成的解析模板進行校對糾正;針對任意HTML網(wǎng)頁,根據(jù)域名、路徑和文本特征選擇對應的模板解析提取。本發(fā)明基于復雜網(wǎng)頁特點,將其劃分為多個區(qū)塊,并利用定位節(jié)點的固有特征,提高了字段節(jié)點定位準確度。 |
