一種獲取目標主題數(shù)據(jù)信息的方法及裝置

基本信息

申請?zhí)?/td> CN202210336663.5 申請日 -
公開(公告)號 CN114707046A 公開(公告)日 2022-07-05
申請公布號 CN114707046A 申請公布日 2022-07-05
分類號 G06F16/951(2019.01)I;G06F16/955(2019.01)I;G06F40/279(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 鄭澤宇;溫苗苗;周光寶;向忠;劉麗嫻;何治;海濱 申請(專利權(quán))人 杭州知衣科技有限公司
代理機構(gòu) 杭州知學知識產(chǎn)權(quán)代理事務所(普通合伙) 代理人 -
地址 311200浙江省杭州市蕭山區(qū)蕭山經(jīng)濟技術開發(fā)區(qū)明星路371號1幢1201室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及網(wǎng)絡信息技術領域,具體公開了一種獲取目標主題數(shù)據(jù)信息的方法,從URL隊列中提取URL鏈接,進入目標主題的網(wǎng)頁抓取原始網(wǎng)絡數(shù)據(jù),判斷網(wǎng)頁是否包含AJAX引用,若是,則運用深層網(wǎng)絡爬蟲基于NLP自然語言及相關度聚類算法,從包含表單URL的網(wǎng)頁中定向獲取目標主題相關的數(shù)據(jù)信息;若否,則運用表層網(wǎng)絡爬蟲基于NLP自然語言及相關度聚類算法,從不包含表單URL的網(wǎng)頁中定向獲取目標主題相關的數(shù)據(jù)信息。本發(fā)明基于NLP自然語言及相關度聚類算法,不僅使得獲取得數(shù)據(jù)數(shù)量和質(zhì)量遠高于傳統(tǒng)網(wǎng)絡爬蟲的數(shù)據(jù),而且,實現(xiàn)了網(wǎng)絡爬蟲的深層網(wǎng)絡化、人工智能化,構(gòu)建了高效、精準且智能化的數(shù)據(jù)處理方法。