專利文本中的領(lǐng)域命名實體識別方法、裝置、介質(zhì)及設(shè)備

基本信息

申請?zhí)?/td> CN202210081976.0 申請日 -
公開(公告)號 CN114444470A 公開(公告)日 2022-05-06
申請公布號 CN114444470A 申請公布日 2022-05-06
分類號 G06F40/211(2020.01)I;G06F40/295(2020.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 嚴妍;彭祖劍;汪敏;裴非;石鑫;白楊 申請(專利權(quán))人 北京開普云信息科技有限公司
代理機構(gòu) 北京德崇智捷知識產(chǎn)權(quán)代理有限公司 代理人 邢飛飛
地址 523000廣東省東莞市石龍鎮(zhèn)中山東東升路1號匯星商業(yè)中心5棟2單元1805室
法律狀態(tài) -

摘要

摘要 本申請公開了一種專利文本中的領(lǐng)域命名實體識別方法、裝置、介質(zhì)及設(shè)備,屬于計算機技術(shù)領(lǐng)域。所述方法包括:獲取訓練數(shù)據(jù),訓練數(shù)據(jù)中包含多篇專利文本的至少一個字段和已經(jīng)標注好的領(lǐng)域命名實體;利用訓練數(shù)據(jù)對BART預訓練模型進行訓練;根據(jù)預設(shè)的Prompt模板和訓練數(shù)據(jù)生成Prompt數(shù)據(jù),其中,Prompt模板是針對同一專利領(lǐng)域中領(lǐng)域命名實體的特點創(chuàng)建的,且不同專利領(lǐng)域的Prompt模板不同;利用Prompt數(shù)據(jù)對訓練后的BART模型進行調(diào)優(yōu),得到領(lǐng)域命名實體識別模型;利用領(lǐng)域命名實體識別模型識別各個專利文本中的領(lǐng)域命名實體。本申請既降低了專利文本中的領(lǐng)域命名實體的識別難度,也提高了識別的準確率。