一種網(wǎng)站相似度檢測方法
基本信息
申請?zhí)?/td> | CN201810705000.X | 申請日 | - |
公開(公告)號 | CN109062981B | 公開(公告)日 | 2021-09-10 |
申請公布號 | CN109062981B | 申請公布日 | 2021-09-10 |
分類號 | G06F16/958;G06F16/955;G06F16/951;G06F16/33;G06F40/194;G06F40/211 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 余明陽;查志勇;詹偉;向湘杰 | 申請(專利權(quán))人 | 東莞市華睿電子科技有限公司 |
代理機構(gòu) | 北京高航知識產(chǎn)權(quán)代理有限公司 | 代理人 | 王卓 |
地址 | 430000 湖北省武漢市洪山區(qū)徐東大街341號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種網(wǎng)站相似度檢測方法,通過服務(wù)器提取待檢測網(wǎng)站中各個頁面的文本信息,并將各個頁面的文本信息整合為第一文本;所述服務(wù)器根據(jù)爬取任務(wù)配置文件開啟網(wǎng)絡(luò)URL信息爬取,獲取各個網(wǎng)站所含文本信息,并將爬取的文本信息整合為第二文本;所述服務(wù)器計算第一文本與各個網(wǎng)站所對應(yīng)的第二文本所含文本信息之間的相似度;若相似度超出預(yù)設(shè)閾值,則判定待檢測網(wǎng)站與爬取到的文字信息相對應(yīng)網(wǎng)站內(nèi)容重復(fù)。對判定出的相同內(nèi)容網(wǎng)站進行辨別,確認出是否為釣魚網(wǎng)站。本發(fā)明公開的網(wǎng)站相似度檢測方法,在現(xiàn)有技術(shù)的基礎(chǔ)上,增加了網(wǎng)站信息智能爬取和爬取信息的相似度匹配的步驟,提高了釣魚網(wǎng)站的快速識別。 |
