一種提升人機(jī)交互對(duì)話語(yǔ)料質(zhì)量與多樣性的對(duì)話語(yǔ)料庫(kù)生成方法
基本信息
申請(qǐng)?zhí)?/td> | CN201911271656.6 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111026884A | 公開(kāi)(公告)日 | 2020-04-17 |
申請(qǐng)公布號(hào) | CN111026884A | 申請(qǐng)公布日 | 2020-04-17 |
分類號(hào) | G06F16/36;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張獻(xiàn)濤;張猛;暴筱;林小俊 | 申請(qǐng)(專利權(quán))人 | 南昌眾薈智盈信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 南昌眾薈智盈信息技術(shù)有限公司 |
地址 | 330000 江西省南昌市東湖區(qū)陽(yáng)明東路66號(hào)央央春天投資大廈1號(hào)樓15層1506室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種提升人機(jī)交互對(duì)話語(yǔ)料質(zhì)量與多樣性的對(duì)話語(yǔ)料庫(kù)生成方法。本方法為:1)對(duì)所選對(duì)話語(yǔ)料進(jìn)行同義句擴(kuò)展,形成一候選集合;2)對(duì)該候選集合中的每一對(duì)話語(yǔ)料進(jìn)行異常檢測(cè),得到各對(duì)話語(yǔ)料的異常值;3)將異常值低于設(shè)定打分閾值的對(duì)話語(yǔ)料保存到提升后的對(duì)話語(yǔ)料庫(kù)中;4)對(duì)異常值高于或等于該打分閾值的對(duì)話語(yǔ)料進(jìn)行語(yǔ)義分析:如果是錯(cuò)誤的對(duì)話數(shù)據(jù),則直接丟棄;如果是多樣性的對(duì)話數(shù)據(jù),則執(zhí)行步驟5);否則將當(dāng)前對(duì)話語(yǔ)料保存到提升后的對(duì)話語(yǔ)料庫(kù)中;5)將判定為多樣性的對(duì)話數(shù)據(jù)重新作為輸入,執(zhí)行步驟1~4)直到達(dá)到暫停條件,停止迭代。本發(fā)明實(shí)現(xiàn)了對(duì)原始對(duì)話語(yǔ)料進(jìn)行質(zhì)量的控制和多樣性的擴(kuò)充。 |
