一種基于深度學(xué)習(xí)的多語言有害信息特征智能挖掘方法
基本信息
申請?zhí)?/td> | CN201911063979.6 | 申請日 | - |
公開(公告)號 | CN111626318A | 公開(公告)日 | 2020-09-04 |
申請公布號 | CN111626318A | 申請公布日 | 2020-09-04 |
分類號 | G06K9/62(2006.01)I;G06F40/205(2020.01)I | 分類 | - |
發(fā)明人 | 趙全軍;吳敬征;段旭;陳宏江;伊克拉木·伊力哈木;劉立力 | 申請(專利權(quán))人 | 中科軟科技股份有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100190北京市海淀區(qū)中關(guān)村新科祥園甲6號樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于深度學(xué)習(xí)的多語言有害信息特征智能挖掘方法,標(biāo)注各語種各類別有害和無害信息文本;將每個語種的每個類別的詞使用RNSW方法選出候選詞并建立獨熱碼編碼;將樣品數(shù)據(jù)輸入CNN神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,得到每個詞屬于該語種該有害類別的得分,作為權(quán)重;使用遺傳算法對機(jī)器學(xué)習(xí)選出的有害信息特征進(jìn)行篩選,形成最終的有害信息特征和權(quán)重。本發(fā)明一是提出了一種語種無關(guān)的文本降維表示的RNSW方法,有效降低了模型訓(xùn)練的參數(shù)數(shù)量,加快了訓(xùn)練速度,提高了模型識別的準(zhǔn)確率;二是采用深度學(xué)習(xí)的方法實現(xiàn)了有害信息特征的智能挖掘,并通過遺傳算法對有害信息特征篩選,使得有害信息識別的可解釋性更好。?? |
