用于確定列表頁(yè)節(jié)點(diǎn)的方法與設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN201810948818.4 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109190003B 公開(kāi)(公告)日 2021-03-02
申請(qǐng)公布號(hào) CN109190003B 申請(qǐng)公布日 2021-03-02
分類號(hào) G06F16/951(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 翟光景;田進(jìn)太;趙慶平;劉益東 申請(qǐng)(專利權(quán))人 上海蜜度信息技術(shù)有限公司
代理機(jī)構(gòu) 上海百一領(lǐng)御專利代理事務(wù)所(普通合伙) 代理人 王奎宇;甘章乖
地址 201800上海市嘉定區(qū)安亭鎮(zhèn)杭桂路1112號(hào)8層J71室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)的目的是提供一種用于確定列表頁(yè)節(jié)點(diǎn)的方法與設(shè)備。與現(xiàn)有技術(shù)相比,本申請(qǐng)通過(guò)獲取根節(jié)點(diǎn)下的初始子節(jié)點(diǎn),并基于所述初始子節(jié)點(diǎn)確定各級(jí)內(nèi)容頁(yè)節(jié)點(diǎn),然后基于所述各級(jí)內(nèi)容頁(yè)節(jié)點(diǎn)至所述根節(jié)點(diǎn)的距離確定列表頁(yè)節(jié)點(diǎn)。通過(guò)這種方式,能夠快速識(shí)別出列表頁(yè)節(jié)點(diǎn),由于內(nèi)容頁(yè)的超鏈接理論上都在列表頁(yè)上出現(xiàn),則這種方式能夠使爬蟲(chóng)搜索向下進(jìn)行時(shí)只需要對(duì)列表頁(yè)和首頁(yè)進(jìn)行超鏈接提取,從而提升爬蟲(chóng)的效率,減少硬件的消耗。??