一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法
基本信息
申請?zhí)?/td> | CN202010068095.6 | 申請日 | - |
公開(公告)號(hào) | CN111325018A | 公開(公告)日 | 2020-06-23 |
申請公布號(hào) | CN111325018A | 申請公布日 | 2020-06-23 |
分類號(hào) | G06F40/242(2020.01)I | 分類 | - |
發(fā)明人 | 杜夢豪;趙琨;劉杰鵬;丁健;梁棟彬;袁顯峰 | 申請(專利權(quán))人 | 上海恒企教育培訓(xùn)有限公司 |
代理機(jī)構(gòu) | 深圳紫晴專利代理事務(wù)所(普通合伙) | 代理人 | 程玉紅 |
地址 | 上海市楊浦區(qū)國賓路18號(hào)701B-1室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法,針對文本數(shù)據(jù)的多樣性和豐富性(包含網(wǎng)絡(luò)數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)),以及新詞中也存在領(lǐng)域詞等特點(diǎn),提出一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法。該方法由以下兩部分組成:基于種子詞典爬取網(wǎng)絡(luò)數(shù)據(jù),然后基于自定義的抽取模式抽取領(lǐng)域詞;基于互信息和左右熵學(xué)習(xí)字與字之間的自由度和粘合度,然后基于BiLstm?CRF實(shí)現(xiàn)新詞發(fā)現(xiàn)。本發(fā)明與現(xiàn)有的技術(shù)相比的優(yōu)點(diǎn)在于:本發(fā)明基于互信息和左右熵學(xué)習(xí)字與字之間的粘合度和自由度,然后基于BiLstm?CRF模型學(xué)習(xí)文本的上下文信息,整體提升低頻詞的識(shí)別率,基于檢索和統(tǒng)計(jì)的方法,對抽取的新詞和發(fā)現(xiàn)的詞進(jìn)行校驗(yàn),省去人工校驗(yàn),能夠高抽取的領(lǐng)域詞的質(zhì)量。?? |
