一種網(wǎng)站識別方法及可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201910733928.3 申請日 -
公開(公告)號 CN110825998A 公開(公告)日 2020-02-21
申請公布號 CN110825998A 申請公布日 2020-02-21
分類號 G06F16/958;G06F16/35;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 佟玲玲;李揚曦;胡燕林;井雅琪;任博雅;時磊;韓鵬;柳新民;佟美瑩 申請(專利權(quán))人 哈爾濱工業(yè)大學(xué)軟件工程股份有限公司
代理機構(gòu) 工業(yè)和信息化部電子專利中心 代理人 國家計算機網(wǎng)絡(luò)與信息安全管理中心;哈爾濱工業(yè)大學(xué)軟件工程股份有限公司
地址 100029 北京市朝陽區(qū)裕民路甲3號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種網(wǎng)站識別方法及可讀存儲介質(zhì),該方法包括如下步驟:提取網(wǎng)站樣本數(shù)據(jù),并對所述網(wǎng)站樣本數(shù)據(jù)進行處理構(gòu)建網(wǎng)頁文本卷積神經(jīng)網(wǎng)絡(luò)CNN特征;提取網(wǎng)頁特征,根據(jù)所述網(wǎng)頁特征和所述網(wǎng)頁文本CNN特征進行特征融合獲得網(wǎng)站融合特征;根據(jù)所述網(wǎng)站融合特征進行模型訓(xùn)練獲得識別模型,根據(jù)所述識別模型對待識別的網(wǎng)站進行識別。本發(fā)明方法通過使用網(wǎng)頁文本特征構(gòu)建的分類模型比較構(gòu)建多特征融合分類模型,分類精度有大幅度提高。