一種基于多示例學習的有害信息識別和網(wǎng)頁分類方法

基本信息

申請?zhí)?/td> CN201410609728.4 申請日 -
公開(公告)號 CN104361059A 公開(公告)日 2015-02-18
申請公布號 CN104361059A 申請公布日 2015-02-18
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 胡衛(wèi)明;胡瑞光 申請(專利權)人 人民中科(山東)智能技術有限公司
代理機構 中科專利商標代理有限責任公司 代理人 宋焰琴
地址 100190 北京市海淀區(qū)中關村東路95號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多示例學習的網(wǎng)頁分類方法,該方法包括:設計了相對大小排序前向比較法來提取網(wǎng)頁內(nèi)有效圖像,并根據(jù)網(wǎng)頁樹狀結構提取有效圖像的相關文本;將一幅有效圖像及其相關文本作為網(wǎng)頁包中的一個示例,分別采用圖像詞包模型和文本詞包模型生成有效圖像及其相關文本的描述,并將二者合并起來作為示例的描述;采用多示例核對毒品網(wǎng)頁進行分類。本發(fā)明的方法,通過將網(wǎng)頁中內(nèi)含的圖像及其相關文本作為網(wǎng)頁包中的示例,使算法更符合網(wǎng)頁內(nèi)容的實際分布,并能夠充分利用網(wǎng)頁的有效信息,深入挖掘圖像信息與文本信息的互補性,最終取得比只利用單模態(tài)信息進行分類更好的效果。