一種相似文本數(shù)據(jù)集生成方法及裝置

基本信息

申請?zhí)?/td> CN201910270585.1 申請日 -
公開(公告)號 CN110046332A 公開(公告)日 2019-07-23
申請公布號 CN110046332A 申請公布日 2019-07-23
分類號 G06F17/22;G06F17/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 薛闖 申請(專利權(quán))人 珠海遠(yuǎn)光消防科技有限公司
代理機(jī)構(gòu) 北京天達(dá)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 龐許倩;武悅
地址 519000 廣東省珠海市橫琴新區(qū)寶華路6號105室-4675
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種相似文本數(shù)據(jù)集生成方法及裝置,屬于自然語言文本智能分析技術(shù)領(lǐng)域,解決了現(xiàn)有相似文本數(shù)據(jù)集生成方法存在的生成效率低、相似度差等問題。包括如下步驟:利用第一轉(zhuǎn)換模型,將原文本轉(zhuǎn)換為與所述原文本相關(guān)的第一文本集;利用第二轉(zhuǎn)換模型,將得到的所述第一文本集中的每一文本分別轉(zhuǎn)換為與所述每一文本相關(guān)的第二文本集;從所述第二文本集中選擇與原文本相似的文本,將所述選擇結(jié)果作為原文本的相似文本數(shù)據(jù)集;所述第一轉(zhuǎn)換模型與所述第二轉(zhuǎn)換模型采用不同的轉(zhuǎn)換方式。實(shí)現(xiàn)了相似文本數(shù)據(jù)集的快速生成,且生成的相似文本數(shù)據(jù)集中的各文本與原文本相似度較高。