一種基于深度學(xué)習(xí)的多語言有害信息特征智能挖掘方法

基本信息

申請?zhí)?/td> CN201911063979.6 申請日 -
公開(公告)號 CN111626318A 公開(公告)日 2020-09-04
申請公布號 CN111626318A 申請公布日 2020-09-04
分類號 G06K9/62(2006.01)I;G06F40/205(2020.01)I 分類 -
發(fā)明人 趙全軍;吳敬征;段旭;陳宏江;伊克拉木·伊力哈木;劉立力 申請(專利權(quán))人 中科軟科技股份有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100190北京市海淀區(qū)中關(guān)村新科祥園甲6號樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于深度學(xué)習(xí)的多語言有害信息特征智能挖掘方法,標(biāo)注各語種各類別有害和無害信息文本;將每個語種的每個類別的詞使用RNSW方法選出候選詞并建立獨熱碼編碼;將樣品數(shù)據(jù)輸入CNN神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,得到每個詞屬于該語種該有害類別的得分,作為權(quán)重;使用遺傳算法對機(jī)器學(xué)習(xí)選出的有害信息特征進(jìn)行篩選,形成最終的有害信息特征和權(quán)重。本發(fā)明一是提出了一種語種無關(guān)的文本降維表示的RNSW方法,有效降低了模型訓(xùn)練的參數(shù)數(shù)量,加快了訓(xùn)練速度,提高了模型識別的準(zhǔn)確率;二是采用深度學(xué)習(xí)的方法實現(xiàn)了有害信息特征的智能挖掘,并通過遺傳算法對有害信息特征篩選,使得有害信息識別的可解釋性更好。??