一種目標(biāo)導(dǎo)向的短文本分類方法

基本信息

申請(qǐng)?zhí)?/td> CN202011470327.7 申請(qǐng)日 -
公開(公告)號(hào) CN113033202A 公開(公告)日 2021-06-25
申請(qǐng)公布號(hào) CN113033202A 申請(qǐng)公布日 2021-06-25
分類號(hào) G06F40/295(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 孫俊 申請(qǐng)(專利權(quán))人 大有秦鼎(北京)科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100089北京市海淀區(qū)中關(guān)村南大街2號(hào)B座8層902A
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種目標(biāo)導(dǎo)向的短文本分類方法,包括如下步驟:1、根據(jù)需要,對(duì)文本標(biāo)注分類;2、根據(jù)需要,對(duì)文本分類標(biāo)注名實(shí)體的位置和屬性;3、搭建深度學(xué)習(xí)模型網(wǎng)絡(luò),其中,文本對(duì)應(yīng)著數(shù)據(jù)輸入,分類結(jié)果對(duì)應(yīng)著步驟1中的分類結(jié)果,名實(shí)體識(shí)別對(duì)應(yīng)著步驟2中的屬性;4、設(shè)置訓(xùn)練時(shí)用的損失函數(shù),這個(gè)損失函數(shù)是CRF損失函數(shù)和文本分類損失函數(shù)的加權(quán)和,通過試驗(yàn)調(diào)整這兩個(gè)損失函數(shù)的權(quán)重,以使文本分類效果最優(yōu)。本專利在訓(xùn)練時(shí)除了要準(zhǔn)備文本分類的數(shù)據(jù)集,還需要對(duì)這個(gè)數(shù)據(jù)集標(biāo)注名實(shí)體識(shí)別的結(jié)果。在訓(xùn)練過程中會(huì)設(shè)置網(wǎng)絡(luò)的損失函數(shù),這個(gè)函數(shù)是CRF損失函數(shù)和文本分類損失函數(shù)的加權(quán)和,權(quán)重根據(jù)試驗(yàn)結(jié)果調(diào)整。本專利可在文本短并且有效樣本少的情況下,實(shí)現(xiàn)一種可以比較精確的提取到有用信息的文本分類方法。