一種批量生成語料的方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN201810803666.9 申請日 -
公開(公告)號 CN109388717B 公開(公告)日 2021-04-20
申請公布號 CN109388717B 申請公布日 2021-04-20
分類號 G06F16/36 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 胡云華;鄭俊成;莫瑜;孔委;高鵬 申請(專利權(quán))人 杭州光云科技股份有限公司
代理機(jī)構(gòu) 北京科龍寰宇知識產(chǎn)權(quán)代理有限責(zé)任公司 代理人 孫皓晨;侯奇慧
地址 310051 浙江省杭州市濱江區(qū)江南大道588號恒鑫大廈主樓15層
法律狀態(tài) -

摘要

摘要 一種批量生成語料的方法和系統(tǒng),該方法包括以下步驟:S1:設(shè)置語料應(yīng)用的場景;S2:為場景設(shè)置一意圖庫,意圖庫中包含與該場景對應(yīng)的至少一個(gè)意圖;S3:設(shè)置一情境庫和一句式庫,情境庫中包含至少一個(gè)情境,句式庫包含至少一個(gè)句式,為每一情境分別設(shè)置至少一個(gè)與之對應(yīng)的句式;S4:為每一意圖選擇至少一個(gè)與之對應(yīng)的情境;S5:根據(jù)句式所屬的場景、意圖和情境,分別為每一情境下的每一句式設(shè)置生成完整句式所需的多個(gè)詞組;S6:將多個(gè)詞組應(yīng)用至與之對應(yīng)的句式中,得到一初選語料庫;S7:對初選語料庫進(jìn)行篩選,選出其中高質(zhì)量的語料。本發(fā)明生成的語料數(shù)據(jù)豐富、完整并且場景復(fù)用性好,能夠節(jié)省大量的人力和時(shí)間,具有很強(qiáng)的實(shí)用性。