一種網(wǎng)站相似度檢測方法

基本信息

申請?zhí)?/td> CN201810705000.X 申請日 -
公開(公告)號 CN109062981B 公開(公告)日 2021-09-10
申請公布號 CN109062981B 申請公布日 2021-09-10
分類號 G06F16/958;G06F16/955;G06F16/951;G06F16/33;G06F40/194;G06F40/211 分類 計算;推算;計數(shù);
發(fā)明人 余明陽;查志勇;詹偉;向湘杰 申請(專利權(quán))人 東莞市華睿電子科技有限公司
代理機構(gòu) 北京高航知識產(chǎn)權(quán)代理有限公司 代理人 王卓
地址 430000 湖北省武漢市洪山區(qū)徐東大街341號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種網(wǎng)站相似度檢測方法,通過服務(wù)器提取待檢測網(wǎng)站中各個頁面的文本信息,并將各個頁面的文本信息整合為第一文本;所述服務(wù)器根據(jù)爬取任務(wù)配置文件開啟網(wǎng)絡(luò)URL信息爬取,獲取各個網(wǎng)站所含文本信息,并將爬取的文本信息整合為第二文本;所述服務(wù)器計算第一文本與各個網(wǎng)站所對應(yīng)的第二文本所含文本信息之間的相似度;若相似度超出預(yù)設(shè)閾值,則判定待檢測網(wǎng)站與爬取到的文字信息相對應(yīng)網(wǎng)站內(nèi)容重復(fù)。對判定出的相同內(nèi)容網(wǎng)站進行辨別,確認出是否為釣魚網(wǎng)站。本發(fā)明公開的網(wǎng)站相似度檢測方法,在現(xiàn)有技術(shù)的基礎(chǔ)上,增加了網(wǎng)站信息智能爬取和爬取信息的相似度匹配的步驟,提高了釣魚網(wǎng)站的快速識別。