一種基于多重弱監(jiān)督集成的短文本分類(lèi)方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010211121.6 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111444342A | 公開(kāi)(公告)日 | 2021-12-10 |
申請(qǐng)公布號(hào) | CN111444342A | 申請(qǐng)公布日 | 2021-12-10 |
分類(lèi)號(hào) | G06F16/35;G06F40/279;G06F40/289 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 修保新 | 申請(qǐng)(專(zhuān)利權(quán))人 | 湖南董因信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京律誠(chéng)同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 祁建國(guó) |
地址 | 410073 湖南省長(zhǎng)沙市開(kāi)福區(qū)金馬路377號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于多重弱監(jiān)督集成的短文本分類(lèi)方法,包括:獲取原始數(shù)據(jù)集和知識(shí)庫(kù),并進(jìn)行數(shù)據(jù)預(yù)處理;對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行知識(shí)抽??;將抽取的知識(shí)表示為標(biāo)注函數(shù),并用于數(shù)據(jù)標(biāo)注;通過(guò)條件獨(dú)立模型,進(jìn)行標(biāo)簽集成;基于全連接神經(jīng)網(wǎng)絡(luò),訓(xùn)練分類(lèi)模型;對(duì)所述分類(lèi)模型進(jìn)行評(píng)估及優(yōu)化,獲得最優(yōu)模型;利用最優(yōu)模型進(jìn)行短文本分類(lèi)。本發(fā)明基于多重弱監(jiān)督集成的短文本分類(lèi)方法:利用關(guān)鍵詞匹配、正則表達(dá)式和遠(yuǎn)監(jiān)督聚類(lèi)相結(jié)合的方式,完整表達(dá)了顯性知識(shí)和隱性知識(shí);借助標(biāo)簽集成機(jī)制產(chǎn)生的概率標(biāo)簽,不僅實(shí)現(xiàn)了無(wú)標(biāo)簽數(shù)據(jù)的自動(dòng)化標(biāo)注,緩解了短文本的數(shù)據(jù)稀疏問(wèn)題,而且有效解決了短文本的不平衡分類(lèi)問(wèn)題。 |
