一種主題網(wǎng)絡爬蟲方法、裝置及介質(zhì)
基本信息
申請?zhí)?/td> | CN201910334543.X | 申請日 | - |
公開(公告)號 | CN110069690B | 公開(公告)日 | 2021-12-07 |
申請公布號 | CN110069690B | 申請公布日 | 2021-12-07 |
分類號 | G06F16/951(2019.01)I;G06N3/08(2006.01)I;G06N3/12(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 楊承鑫 | 申請(專利權(quán))人 | 成都映潮科技股份有限公司 |
代理機構(gòu) | 成都創(chuàng)新引擎知識產(chǎn)權(quán)代理有限公司 | 代理人 | 向群 |
地址 | 610041 四川省成都市高新區(qū)天府大道中段666號2棟34層3406號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種主題網(wǎng)絡爬蟲方法、裝置及介質(zhì),所述方法包括:采集給定網(wǎng)站中的產(chǎn)品信息,對所述產(chǎn)品信息按照主題進行分類標注,得到訓練樣本;利用訓練樣本對遺傳算法+BP神經(jīng)網(wǎng)絡模型進行訓練,得到訓練好的模型;輸入要采集的目標網(wǎng)站url、采集的主題、采集閾值,對目標網(wǎng)站進行數(shù)據(jù)采集,采用超鏈接廣度優(yōu)先遍歷策略,獲取與主題同級的頁面;對獲取到的頁面進行數(shù)據(jù)清洗,將清洗完成后的數(shù)據(jù)輸入訓練好的模型中,得到優(yōu)解,并對優(yōu)解對應的頁面進行采集、存儲,并輸出關(guān)鍵字段。本發(fā)明采用遺傳算法+BP神經(jīng)網(wǎng)絡模型以達到減少前期盲目搜索,防止收斂到局部最優(yōu)的目的,解決了傳統(tǒng)主題爬蟲中出現(xiàn)的精度低,覆蓋面低,數(shù)據(jù)不完整,主題關(guān)聯(lián)度不強的問題。 |
