一種基于遠程監(jiān)督的同義詞提取方法
基本信息
申請?zhí)?/td> | CN201811554878.4 | 申請日 | - |
公開(公告)號 | CN109740149B | 公開(公告)日 | 2019-12-13 |
申請公布號 | CN109740149B | 申請公布日 | 2019-12-13 |
分類號 | G06F17/27(2006.01) | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張濤; 劉前衛(wèi); 盛興; 聶慶; 謝秋學; 賀芳; 雍志娟; 孫金; 吳培培; 常秀; 張楠; 商瑩楠; 滕家雨; 趙生傳; 張婷婷; 田書然 | 申請(專利權)人 | 英大傳媒投資集團有限公司 |
代理機構 | 南京蘇高專利商標事務所(普通合伙) | 代理人 | 英大傳媒投資集團有限公司; 國家電網(wǎng)有限公司; 南瑞集團有限公司; 國網(wǎng)山東省電力公司煙臺供電公司 |
地址 | 100005 北京市東城區(qū)北京站西街19號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于遠程監(jiān)督的同義詞提取方法,屬于自然語言處理技術領域。該方法包括:建立領域中同義詞的詞匯句法模式模型;構建基于LSTM和CRF的遠程監(jiān)督神經(jīng)網(wǎng)絡學習模型,并使用領域詞條進行訓練,得到同義詞發(fā)現(xiàn)的句子序列標注集;根據(jù)標注集,將語料庫中的語句中的候選實體進行標注及配對,抽取實體后得到同義詞。本發(fā)明通過利用基于百科知識庫詞條特性、結合領域同義詞的相應詞匯?句法模式、通過遠程監(jiān)督學習和機器自主學習,獲取領域同義詞,該方法以機器處理為主,人工處理為輔,提高同義詞獲取的效率,在不降低精度的情況下,大幅降低人工成本。通過定期對在線百科的詞條學習和對隱藏同義詞的分析可以發(fā)現(xiàn)新詞。 |
