實體鏈接語料標注方法和裝置

基本信息

申請?zhí)?/td> CN202111451201.X 申請日 -
公開(公告)號 CN114139543A 公開(公告)日 2022-03-04
申請公布號 CN114139543A 申請公布日 2022-03-04
分類號 G06F40/295(2020.01)I;G06F16/35(2019.01)I;G06F16/36(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李啟睿 申請(專利權(quán))人 螞蟻區(qū)塊鏈科技(上海)有限公司
代理機構(gòu) 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 孫欣欣;周良玉
地址 310000浙江省杭州市西湖區(qū)西溪路556號8層B段801-11
法律狀態(tài) -

摘要

摘要 本說明書實施例提供一種實體鏈接語料標注方法和裝置,方法包括:針對第一原始語料進行命名實體識別,得到預(yù)設(shè)類型的命名實體構(gòu)成的命名實體集合;對于命名實體集合中任意的目標命名實體,從標準庫中召回N個目標候選實體;基于目標命名實體、第一原始語料中的目標命名實體的上下文、N個目標候選實體中的第一候選實體,確定目標命名實體與第一候選實體之間的匹配度分數(shù);按照匹配度分數(shù)由高到低的順序,確定N個目標候選實體的排序;將標注輔助信息提供給標注人員作為標注的參考,標注輔助信息包括,命名實體集合以及其中每個命名實體對應(yīng)的N個目標候選實體及其排序。能快速構(gòu)建特定領(lǐng)域的實體鏈接數(shù)據(jù),減少人工標注成本。