一種增量式行業(yè)詞典更新方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202011463306.2 | 申請日 | - |
公開(公告)號 | CN112632969A | 公開(公告)日 | 2021-04-09 |
申請公布號 | CN112632969A | 申請公布日 | 2021-04-09 |
分類號 | G06F40/242;G06F40/289;G06F40/30;G06F40/216;G06F40/253;G06F40/268;G06F16/335;G06F16/35 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 周超逸;周雅倩;馬琦珉;陳誠;劉丙哲 | 申請(專利權(quán))人 | 中國大地財(cái)產(chǎn)保險(xiǎn)股份有限公司 |
代理機(jī)構(gòu) | 上海正旦專利代理有限公司 | 代理人 | 陸飛;陸尤 |
地址 | 200433 上海市楊浦區(qū)邯鄲路220號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,具體為增量式行業(yè)詞典更新方法和系統(tǒng)。本發(fā)明方法包括:基于淺層詞匯統(tǒng)計(jì)分析的增量式選取候選詞;基于深度語義計(jì)算的增量式選取行業(yè)詞匯,包括:采用詞語的深度語義計(jì)算的過濾和詞語上下文分布的過濾從候選詞中獲取行業(yè)詞匯;多策略人工驗(yàn)證,從候選行業(yè)詞匯中,包括:使用不同的人工標(biāo)注策略對得到的候選行業(yè)詞匯進(jìn)行排序,再選取部分詞進(jìn)行人工查看;人工查看進(jìn)行三類標(biāo)注:行業(yè)詞匯、非行業(yè)詞匯和邊界錯(cuò)誤字串,對基于淺層詞匯統(tǒng)計(jì)分析和基于詞語上下文分布過濾的參數(shù)進(jìn)行微調(diào),優(yōu)化候選詞選取的性能。本發(fā)明可以增量式地處理大規(guī)模語料,選擇性使用人工標(biāo)注信息,在低資源環(huán)境下更新構(gòu)建行業(yè)詞典。 |
