一種爬蟲正文匹配方法

基本信息

申請?zhí)?/td> CN202010222083.4 申請日 -
公開(公告)號 CN111444406A 公開(公告)日 2020-07-24
申請公布號 CN111444406A 申請公布日 2020-07-24
分類號 G06F16/951(2019.01)I 分類 -
發(fā)明人 鄭中華;胡淦;黎偉;宣然 申請(專利權)人 安徽博約信息科技股份有限公司
代理機構 合肥律眾知識產權代理有限公司 代理人 趙娟
地址 230000安徽省合肥市高新區(qū)創(chuàng)新大道2800號創(chuàng)新產業(yè)園二期G3棟A區(qū)5-6層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種爬蟲正文匹配方法,主要包括以下步驟,1、將待檢索信息進行分詞處理并計算得出其核心詞及其權重數組A;2、根據待檢測信息核心詞進行網絡信息爬取,將爬取到的內容進行分詞處理并計算得出其核心詞及其權重數組B;3、匹配核心詞權重數組A和核心詞權重數組B,得出爬取到的內容與待檢索信息的匹配度K;4、向用戶推送與待檢測信息匹配度K高于設定值的網絡信息。本發(fā)明對根據待檢測信息爬取到的網絡信息與待檢測信息進行匹配度計算,從而過濾掉匹配度不是特別高的信息,提高用戶信息檢索效率。??