一種自動(dòng)抽取列表頁(yè)的方法
基本信息
申請(qǐng)?zhí)?/td> | CN201810959317.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN109144513A | 公開(公告)日 | 2019-01-04 |
申請(qǐng)公布號(hào) | CN109144513A | 申請(qǐng)公布日 | 2019-01-04 |
分類號(hào) | G06F8/40 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 龐一文 | 申請(qǐng)(專利權(quán))人 | 上海嘉道信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京衛(wèi)智暢科專利代理事務(wù)所(普通合伙) | 代理人 | 上海嘉道信息技術(shù)有限公司 |
地址 | 201821 上海市嘉定區(qū)嘉定工業(yè)區(qū)普惠路333號(hào)3幢1073室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種自動(dòng)抽取列表頁(yè)的方法,包括以下步驟:將網(wǎng)頁(yè)源碼解析成dom樹;提取dom樹中帶有文字的元素節(jié)點(diǎn)路徑;元素節(jié)點(diǎn)的位置信息打分和濾除;提取節(jié)點(diǎn)的相似指紋;提取節(jié)點(diǎn)塊的深度指紋;提取標(biāo)題和地址鏈接的相似指紋;抽取列表頁(yè),將封裝結(jié)果返回。本發(fā)明能夠適用于大量的互聯(lián)網(wǎng)網(wǎng)站列表頁(yè)抽取,對(duì)大量列表頁(yè)都具有普適性,因此即使出現(xiàn)了網(wǎng)站改版,基于網(wǎng)頁(yè)結(jié)構(gòu)的抽取方式依舊可以生效,節(jié)省了重新編寫抽取規(guī)則和維護(hù)規(guī)則所產(chǎn)生來(lái)的時(shí)間成本和人力成本。在基于網(wǎng)頁(yè)的結(jié)構(gòu)抽取算法中,還增加了網(wǎng)頁(yè)上元素的位置像素信息作為特征,更加符合人對(duì)于列表頁(yè)的感官判斷,使得抽取結(jié)果更加符合目標(biāo)。 |
