基于MASK訓(xùn)練的辱罵識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN202111652552.7 申請(qǐng)日 -
公開(公告)號(hào) CN114298017A 公開(公告)日 2022-04-08
申請(qǐng)公布號(hào) CN114298017A 申請(qǐng)公布日 2022-04-08
分類號(hào) G06F40/253(2020.01)I;G06F40/237(2020.01)I;G06F40/289(2020.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 趙繼帆;吉慶琳 申請(qǐng)(專利權(quán))人 北京塵鋒信息技術(shù)有限公司
代理機(jī)構(gòu) 北京東靈通專利代理事務(wù)所(普通合伙) 代理人 李金豹
地址 100020北京市朝陽區(qū)安立路78、80號(hào)05層501內(nèi)506室
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是基于MASK訓(xùn)練的辱罵識(shí)別方法,包括DusBERT訓(xùn)練模型,具體包括以下步驟:S1:數(shù)據(jù)準(zhǔn)備;S2:數(shù)據(jù)清洗;S3:構(gòu)造字典;S4:數(shù)據(jù)增強(qiáng);S5:分詞構(gòu)建輸入;S6:MASK訓(xùn)練;S7:結(jié)束,所述S1的步驟中,從網(wǎng)絡(luò)上收集臟話數(shù)據(jù),另外收集不帶臟詞但語義上是辱罵的的文本,該文本實(shí)驗(yàn)中不作為訓(xùn)練數(shù)據(jù),而僅僅作為特殊測(cè)試數(shù)據(jù),非辱罵文本來自于之前各種任務(wù)的隨機(jī)抽樣。本發(fā)明從特殊測(cè)試集上來看,不需要額外準(zhǔn)備數(shù)據(jù),大大節(jié)省成本且達(dá)到較高水平,在未使用特殊測(cè)試集訓(xùn)練的情況下,能夠區(qū)分包含臟字臟詞但非辱罵語義以及暗喻辱罵文本,足可見模型方法的泛華能力。