域識(shí)別加主題識(shí)別構(gòu)建機(jī)器學(xué)習(xí)模型檢測(cè)網(wǎng)頁暗鏈的方法

基本信息

申請(qǐng)?zhí)?/td> CN201710853580.2 申請(qǐng)日 -
公開(公告)號(hào) CN107566391B 公開(公告)日 2018-01-09
申請(qǐng)公布號(hào) CN107566391B 申請(qǐng)公布日 2018-01-09
分類號(hào) H04L29/06(2006.01)I 分類 電通信技術(shù);
發(fā)明人 孟雷 申請(qǐng)(專利權(quán))人 上海斗象信息科技有限公司
代理機(jī)構(gòu) 上海翰信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 上海斗象信息科技有限公司
地址 201203上海市浦東新區(qū)自由貿(mào)易試驗(yàn)區(qū)碧波路690號(hào)8號(hào)樓102室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種域識(shí)別加主題識(shí)別構(gòu)建機(jī)器學(xué)習(xí)模型檢測(cè)網(wǎng)頁暗鏈的方法,包括:收集大量含已被標(biāo)注為包含暗鏈的網(wǎng)頁源碼和標(biāo)注為正常的網(wǎng)頁源碼作為訓(xùn)練集,通過可疑域識(shí)別、敏感域識(shí)別、安全域識(shí)別、全域分析和主題識(shí)別提取每個(gè)網(wǎng)頁源碼中風(fēng)險(xiǎn)文本、風(fēng)險(xiǎn)度、主題異樣度、主題、風(fēng)險(xiǎn)文本向量、風(fēng)險(xiǎn)文本異常概率、以及風(fēng)險(xiǎn)文本長(zhǎng)度,將訓(xùn)練集中所有網(wǎng)頁源碼的特征數(shù)據(jù)用機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練得到分類判別模型,最后,將待預(yù)測(cè)網(wǎng)頁源碼的特征數(shù)據(jù)導(dǎo)入分類判別模型中,得到待預(yù)測(cè)網(wǎng)頁源碼是否包含暗鏈,因此,本發(fā)明對(duì)高混雜暗鏈代碼識(shí)別效果好、特征提取的比較完整、且能夠很好解決傳統(tǒng)方法無法正確區(qū)分暗鏈和頁面篡改的問題。??