一種基于復合邊界信息的序列標注方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201911056445.0 | 申請日 | - |
公開(公告)號 | CN111008283A | 公開(公告)日 | 2020-04-14 |
申請公布號 | CN111008283A | 申請公布日 | 2020-04-14 |
分類號 | G06F16/36(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 孟茜;夏天;劉安庭 | 申請(專利權)人 | 中電藥明數(shù)據(jù)科技(成都)有限公司 |
代理機構 | 北京慕達星云知識產權代理事務所(特殊普通合伙) | 代理人 | 曹鵬飛 |
地址 | 610041四川省成都市高新區(qū)仁和街39號6棟2層1號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于復合邊界信息的序列標注方法及系統(tǒng),該方法包括:對非結構化文本數(shù)據(jù)通過預設模型,生成復合詞向量并歸一化;對所述非結構化文本數(shù)據(jù),預訓練獲得詞邊界特征向量;將所述復合詞向量與所述詞邊界特征向量進行融合,得到復合邊界特征向量;對所述非結構化文本數(shù)據(jù)進行預處理,并通過預訓練以得到字特征向量;基于所述字特征向量及所述復合邊界特征向量,通過聯(lián)合學習,生成聯(lián)合模型;通過所述聯(lián)合模型,對待標注文本進行序列標注。該方法可消除因分詞錯誤等帶來的影響,提高了標注結果的準確性。?? |
