專利文本中的領(lǐng)域命名實體識別方法、裝置、介質(zhì)及設(shè)備
基本信息
申請?zhí)?/td> | CN202210081976.0 | 申請日 | - |
公開(公告)號 | CN114444470A | 公開(公告)日 | 2022-05-06 |
申請公布號 | CN114444470A | 申請公布日 | 2022-05-06 |
分類號 | G06F40/211(2020.01)I;G06F40/295(2020.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 嚴妍;彭祖劍;汪敏;裴非;石鑫;白楊 | 申請(專利權(quán))人 | 北京開普云信息科技有限公司 |
代理機構(gòu) | 北京德崇智捷知識產(chǎn)權(quán)代理有限公司 | 代理人 | 邢飛飛 |
地址 | 523000廣東省東莞市石龍鎮(zhèn)中山東東升路1號匯星商業(yè)中心5棟2單元1805室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開了一種專利文本中的領(lǐng)域命名實體識別方法、裝置、介質(zhì)及設(shè)備,屬于計算機技術(shù)領(lǐng)域。所述方法包括:獲取訓練數(shù)據(jù),訓練數(shù)據(jù)中包含多篇專利文本的至少一個字段和已經(jīng)標注好的領(lǐng)域命名實體;利用訓練數(shù)據(jù)對BART預訓練模型進行訓練;根據(jù)預設(shè)的Prompt模板和訓練數(shù)據(jù)生成Prompt數(shù)據(jù),其中,Prompt模板是針對同一專利領(lǐng)域中領(lǐng)域命名實體的特點創(chuàng)建的,且不同專利領(lǐng)域的Prompt模板不同;利用Prompt數(shù)據(jù)對訓練后的BART模型進行調(diào)優(yōu),得到領(lǐng)域命名實體識別模型;利用領(lǐng)域命名實體識別模型識別各個專利文本中的領(lǐng)域命名實體。本申請既降低了專利文本中的領(lǐng)域命名實體的識別難度,也提高了識別的準確率。 |
