一種基于遠(yuǎn)程監(jiān)督的同義詞提取方法
基本信息
申請?zhí)?/td> | CN201811554878.4 | 申請日 | - |
公開(公告)號 | CN109740149A | 公開(公告)日 | 2019-05-10 |
申請公布號 | CN109740149A | 申請公布日 | 2019-05-10 |
分類號 | G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張濤; 劉前衛(wèi); 盛興; 聶慶; 謝秋學(xué); 賀芳; 雍志娟; 孫金; 吳培培; 常秀; 張楠; 商瑩楠; 滕家雨; 趙生傳; 張婷婷; 田書然 | 申請(專利權(quán))人 | 英大傳媒投資集團(tuán)有限公司 |
代理機構(gòu) | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) | 代理人 | 英大傳媒投資集團(tuán)有限公司; 國家電網(wǎng)有限公司; 南瑞集團(tuán)有限公司; 國網(wǎng)山東省電力公司煙臺供電公司 |
地址 | 100005 北京市東城區(qū)北京站西街19號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于遠(yuǎn)程監(jiān)督的同義詞提取方法,屬于自然語言處理技術(shù)領(lǐng)域。該方法包括:建立領(lǐng)域中同義詞的詞匯句法模式模型;構(gòu)建基于LSTM和CRF的遠(yuǎn)程監(jiān)督神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,并使用領(lǐng)域詞條進(jìn)行訓(xùn)練,得到同義詞發(fā)現(xiàn)的句子序列標(biāo)注集;根據(jù)標(biāo)注集,將語料庫中的語句中的候選實體進(jìn)行標(biāo)注及配對,抽取實體后得到同義詞。本發(fā)明通過利用基于百科知識庫詞條特性、結(jié)合領(lǐng)域同義詞的相應(yīng)詞匯?句法模式、通過遠(yuǎn)程監(jiān)督學(xué)習(xí)和機器自主學(xué)習(xí),獲取領(lǐng)域同義詞,該方法以機器處理為主,人工處理為輔,提高同義詞獲取的效率,在不降低精度的情況下,大幅降低人工成本。通過定期對在線百科的詞條學(xué)習(xí)和對隱藏同義詞的分析可以發(fā)現(xiàn)新詞。 |
