一種電信客服垂直領(lǐng)域的詞庫(kù)構(gòu)建方法及工具

基本信息

申請(qǐng)?zhí)?/td> CN202010114161.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111353050A 公開(kāi)(公告)日 2020-06-30
申請(qǐng)公布號(hào) CN111353050A 申請(qǐng)公布日 2020-06-30
分類號(hào) G06F16/36(2019.01)I 分類 -
發(fā)明人 王鴻強(qiáng);雷曉宇;王福君;張宇 申請(qǐng)(專利權(quán))人 北京合力億捷科技股份有限公司
代理機(jī)構(gòu) 北京久誠(chéng)知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 北京合力億捷科技股份有限公司
地址 100081北京市海淀區(qū)中關(guān)村南大街甲12號(hào)寰太大廈18層
法律狀態(tài) -

摘要

摘要 一種電信客服垂直領(lǐng)域的詞庫(kù)構(gòu)建方法,包括:將需要提取領(lǐng)域詞庫(kù)的語(yǔ)料庫(kù)導(dǎo)入詞庫(kù)構(gòu)建工具,語(yǔ)料數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù);利用詞庫(kù)構(gòu)建工具對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行分詞提取,分詞提取工具有Jieba工具、TF?IDF統(tǒng)計(jì)模型、信息熵模型和TextRank模型;提取后的詞集導(dǎo)出作為專業(yè)領(lǐng)域詞庫(kù)?!胺N子詞篩選結(jié)合詞向量的優(yōu)化”的詞庫(kù)構(gòu)建方法及工具,快速、高效的發(fā)現(xiàn)行業(yè)專業(yè)領(lǐng)域詞匯,構(gòu)建主題詞庫(kù),可用于專業(yè)的領(lǐng)域詞匯挖掘,新詞發(fā)現(xiàn),關(guān)鍵詞挖掘,相似主題挖掘等領(lǐng)域。??