一種高效地生成網(wǎng)頁(yè)信息抽取規(guī)則的方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201911061674.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110837614A 公開(kāi)(公告)日 2020-02-25
申請(qǐng)公布號(hào) CN110837614A 申請(qǐng)公布日 2020-02-25
分類(lèi)號(hào) G06F16/957;G06F16/958 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 黃國(guó)舜;吳薊曄 申請(qǐng)(專(zhuān)利權(quán))人 上海嘉道信息技術(shù)有限公司
代理機(jī)構(gòu) 北京衛(wèi)智暢科專(zhuān)利代理事務(wù)所(普通合伙) 代理人 上海嘉道信息技術(shù)有限公司
地址 200040 上海市靜安區(qū)江場(chǎng)三路238號(hào)1601室(集中登記地)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種高效地生成網(wǎng)頁(yè)信息抽取規(guī)則的方法及系統(tǒng),具體包括以下步驟:S1、頁(yè)面結(jié)構(gòu)自動(dòng)識(shí)別以及Html結(jié)構(gòu)與Json結(jié)構(gòu)的判定:首先通過(guò)網(wǎng)頁(yè)信息采集技術(shù)獲取該網(wǎng)頁(yè)的源碼,分析其結(jié)構(gòu)是通用的Html結(jié)構(gòu)還是Json結(jié)構(gòu),Html結(jié)構(gòu)與Json結(jié)構(gòu)的判定是通過(guò)Html標(biāo)簽來(lái)判斷Html結(jié)構(gòu),通過(guò)開(kāi)源Json解析器解析Json結(jié)構(gòu),考慮到自動(dòng)解析可能存在誤判,該步驟支持人工糾錯(cuò);該高效地生成網(wǎng)頁(yè)信息抽取規(guī)則的方法及系統(tǒng),可以克服純?nèi)斯づ渲贸槿∫?guī)則的低效問(wèn)題,避免純自動(dòng)化抽取的精準(zhǔn)度下降的問(wèn)題,滿(mǎn)足了企業(yè)級(jí)系統(tǒng)應(yīng)用對(duì)精度及工作效率的要求,在不影響抽取精度的前提下,又提高了自動(dòng)化程度,大大提高了網(wǎng)頁(yè)信息抽取工作的效率以及實(shí)用性。