一種基于自然語(yǔ)義分析的用例提取方法

基本信息

申請(qǐng)?zhí)?/td> CN201710223135.8 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107038229A 公開(kāi)(公告)日 2017-08-11
申請(qǐng)公布號(hào) CN107038229A 申請(qǐng)公布日 2017-08-11
分類號(hào) G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 康雁;柳青;王珺;張顏淞;林英;劉宇;岳遠(yuǎn)澤;丁玉鋒 申請(qǐng)(專利權(quán))人 泰盈科技集團(tuán)股份有限公司
代理機(jī)構(gòu) 北京科億知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 湯東鳳
地址 271000 山東省泰安市泰安高新區(qū)中天門(mén)大街1366號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,公開(kāi)了一種基于自然語(yǔ)義分析的用例提取方法,用例提取方法包括:通過(guò)大量相關(guān)專業(yè)需求文檔,訓(xùn)練屬于自己領(lǐng)域的詞庫(kù);對(duì)詞庫(kù)精度進(jìn)行優(yōu)化,排除干擾分詞結(jié)果的錯(cuò)誤詞匯;運(yùn)用相關(guān)領(lǐng)域的語(yǔ)料庫(kù)進(jìn)行分詞,并標(biāo)識(shí)出用例以及參與者;在分詞的基礎(chǔ)上提取句子主干,并建立基于語(yǔ)義分析的語(yǔ)義樹(shù);針對(duì)提取的句子主干通過(guò)模型匹配進(jìn)行用例的識(shí)別以及提取。本發(fā)明新詞發(fā)現(xiàn)算法利用三個(gè)特性很好的對(duì)所需要的新詞進(jìn)行了提取,在機(jī)器學(xué)習(xí)過(guò)程中,進(jìn)行了大量的參數(shù)調(diào)控等,同時(shí)也進(jìn)行了大量的樣本學(xué)習(xí),歸納出5類漢語(yǔ)語(yǔ)法模型,從而實(shí)現(xiàn)用例提取及參與者的匹配,最終準(zhǔn)確度確定在95%以上。