一種提升人機(jī)交互對(duì)話語(yǔ)料質(zhì)量與多樣性的對(duì)話語(yǔ)料庫(kù)生成方法

基本信息

申請(qǐng)?zhí)?/td> CN201911271656.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111026884A 公開(kāi)(公告)日 2020-04-17
申請(qǐng)公布號(hào) CN111026884A 申請(qǐng)公布日 2020-04-17
分類號(hào) G06F16/36;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張獻(xiàn)濤;張猛;暴筱;林小俊 申請(qǐng)(專利權(quán))人 南昌眾薈智盈信息技術(shù)有限公司
代理機(jī)構(gòu) 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 代理人 南昌眾薈智盈信息技術(shù)有限公司
地址 330000 江西省南昌市東湖區(qū)陽(yáng)明東路66號(hào)央央春天投資大廈1號(hào)樓15層1506室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種提升人機(jī)交互對(duì)話語(yǔ)料質(zhì)量與多樣性的對(duì)話語(yǔ)料庫(kù)生成方法。本方法為:1)對(duì)所選對(duì)話語(yǔ)料進(jìn)行同義句擴(kuò)展,形成一候選集合;2)對(duì)該候選集合中的每一對(duì)話語(yǔ)料進(jìn)行異常檢測(cè),得到各對(duì)話語(yǔ)料的異常值;3)將異常值低于設(shè)定打分閾值的對(duì)話語(yǔ)料保存到提升后的對(duì)話語(yǔ)料庫(kù)中;4)對(duì)異常值高于或等于該打分閾值的對(duì)話語(yǔ)料進(jìn)行語(yǔ)義分析:如果是錯(cuò)誤的對(duì)話數(shù)據(jù),則直接丟棄;如果是多樣性的對(duì)話數(shù)據(jù),則執(zhí)行步驟5);否則將當(dāng)前對(duì)話語(yǔ)料保存到提升后的對(duì)話語(yǔ)料庫(kù)中;5)將判定為多樣性的對(duì)話數(shù)據(jù)重新作為輸入,執(zhí)行步驟1~4)直到達(dá)到暫停條件,停止迭代。本發(fā)明實(shí)現(xiàn)了對(duì)原始對(duì)話語(yǔ)料進(jìn)行質(zhì)量的控制和多樣性的擴(kuò)充。