一種主題網(wǎng)絡爬蟲方法、裝置及介質(zhì)

基本信息

申請?zhí)?/td> CN201910334543.X 申請日 -
公開(公告)號 CN110069690B 公開(公告)日 2021-12-07
申請公布號 CN110069690B 申請公布日 2021-12-07
分類號 G06F16/951(2019.01)I;G06N3/08(2006.01)I;G06N3/12(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 楊承鑫 申請(專利權(quán))人 成都映潮科技股份有限公司
代理機構(gòu) 成都創(chuàng)新引擎知識產(chǎn)權(quán)代理有限公司 代理人 向群
地址 610041 四川省成都市高新區(qū)天府大道中段666號2棟34層3406號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種主題網(wǎng)絡爬蟲方法、裝置及介質(zhì),所述方法包括:采集給定網(wǎng)站中的產(chǎn)品信息,對所述產(chǎn)品信息按照主題進行分類標注,得到訓練樣本;利用訓練樣本對遺傳算法+BP神經(jīng)網(wǎng)絡模型進行訓練,得到訓練好的模型;輸入要采集的目標網(wǎng)站url、采集的主題、采集閾值,對目標網(wǎng)站進行數(shù)據(jù)采集,采用超鏈接廣度優(yōu)先遍歷策略,獲取與主題同級的頁面;對獲取到的頁面進行數(shù)據(jù)清洗,將清洗完成后的數(shù)據(jù)輸入訓練好的模型中,得到優(yōu)解,并對優(yōu)解對應的頁面進行采集、存儲,并輸出關(guān)鍵字段。本發(fā)明采用遺傳算法+BP神經(jīng)網(wǎng)絡模型以達到減少前期盲目搜索,防止收斂到局部最優(yōu)的目的,解決了傳統(tǒng)主題爬蟲中出現(xiàn)的精度低,覆蓋面低,數(shù)據(jù)不完整,主題關(guān)聯(lián)度不強的問題。