一種特定主體的跨網(wǎng)站通用新聞采集方法
基本信息
申請?zhí)?/td> | CN202010378695.2 | 申請日 | - |
公開(公告)號 | CN111581478A | 公開(公告)日 | 2020-08-25 |
申請公布號 | CN111581478A | 申請公布日 | 2020-08-25 |
分類號 | G06F16/951(2019.01)I | 分類 | - |
發(fā)明人 | 馮翱;王維寬;宋馨宇;徐天豪 | 申請(專利權(quán))人 | 成都點(diǎn)石瑞達(dá)科技有限公司 |
代理機(jī)構(gòu) | 成都智涌知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 周正輝 |
地址 | 610200四川省成都市西南航空港經(jīng)濟(jì)開發(fā)區(qū)學(xué)府路1段24號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種特定主體的跨網(wǎng)站通用新聞采集方法,包括:步驟1:引入疏密度判斷的方法,對采集到的新聞頁面使用行塊分布函數(shù)進(jìn)行預(yù)處理;步驟2:根據(jù)行塊分布函數(shù)中顯示的文本的分布情況,通過預(yù)先設(shè)定的閾值,確定可能包含正文的區(qū)域;步驟3:將預(yù)處理過的頁面源碼重構(gòu)為DOM樹;步驟4:對其使用readability算法進(jìn)行加減權(quán)操作,根據(jù)設(shè)定的分?jǐn)?shù)要求,判斷正文內(nèi)容或無用元素;步驟5:對處理后的內(nèi)容,根據(jù)分?jǐn)?shù)進(jìn)行重新拼接,重組后生成正文內(nèi)容。本發(fā)明將行塊分布函數(shù)與Readability算法相結(jié)合,進(jìn)行參數(shù)調(diào)優(yōu)后,可快速準(zhǔn)確提取網(wǎng)頁的新聞數(shù)據(jù),采用分布式部署及反爬、去重模塊,系統(tǒng)整體具有效率高,魯棒性好等特點(diǎn)。?? |
