一種網(wǎng)站識別方法及可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN201910733928.3 | 申請日 | - |
公開(公告)號 | CN110825998A | 公開(公告)日 | 2020-02-21 |
申請公布號 | CN110825998A | 申請公布日 | 2020-02-21 |
分類號 | G06F16/958;G06F16/35;G06K9/62 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 佟玲玲;李揚曦;胡燕林;井雅琪;任博雅;時磊;韓鵬;柳新民;佟美瑩 | 申請(專利權(quán))人 | 哈爾濱工業(yè)大學(xué)軟件工程股份有限公司 |
代理機構(gòu) | 工業(yè)和信息化部電子專利中心 | 代理人 | 國家計算機網(wǎng)絡(luò)與信息安全管理中心;哈爾濱工業(yè)大學(xué)軟件工程股份有限公司 |
地址 | 100029 北京市朝陽區(qū)裕民路甲3號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種網(wǎng)站識別方法及可讀存儲介質(zhì),該方法包括如下步驟:提取網(wǎng)站樣本數(shù)據(jù),并對所述網(wǎng)站樣本數(shù)據(jù)進行處理構(gòu)建網(wǎng)頁文本卷積神經(jīng)網(wǎng)絡(luò)CNN特征;提取網(wǎng)頁特征,根據(jù)所述網(wǎng)頁特征和所述網(wǎng)頁文本CNN特征進行特征融合獲得網(wǎng)站融合特征;根據(jù)所述網(wǎng)站融合特征進行模型訓(xùn)練獲得識別模型,根據(jù)所述識別模型對待識別的網(wǎng)站進行識別。本發(fā)明方法通過使用網(wǎng)頁文本特征構(gòu)建的分類模型比較構(gòu)建多特征融合分類模型,分類精度有大幅度提高。 |
