一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法

基本信息

申請?zhí)?/td> CN202010068095.6 申請日 -
公開(公告)號(hào) CN111325018A 公開(公告)日 2020-06-23
申請公布號(hào) CN111325018A 申請公布日 2020-06-23
分類號(hào) G06F40/242(2020.01)I 分類 -
發(fā)明人 杜夢豪;趙琨;劉杰鵬;丁健;梁棟彬;袁顯峰 申請(專利權(quán))人 上海恒企教育培訓(xùn)有限公司
代理機(jī)構(gòu) 深圳紫晴專利代理事務(wù)所(普通合伙) 代理人 程玉紅
地址 上海市楊浦區(qū)國賓路18號(hào)701B-1室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法,針對文本數(shù)據(jù)的多樣性和豐富性(包含網(wǎng)絡(luò)數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)),以及新詞中也存在領(lǐng)域詞等特點(diǎn),提出一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法。該方法由以下兩部分組成:基于種子詞典爬取網(wǎng)絡(luò)數(shù)據(jù),然后基于自定義的抽取模式抽取領(lǐng)域詞;基于互信息和左右熵學(xué)習(xí)字與字之間的自由度和粘合度,然后基于BiLstm?CRF實(shí)現(xiàn)新詞發(fā)現(xiàn)。本發(fā)明與現(xiàn)有的技術(shù)相比的優(yōu)點(diǎn)在于:本發(fā)明基于互信息和左右熵學(xué)習(xí)字與字之間的粘合度和自由度,然后基于BiLstm?CRF模型學(xué)習(xí)文本的上下文信息,整體提升低頻詞的識(shí)別率,基于檢索和統(tǒng)計(jì)的方法,對抽取的新詞和發(fā)現(xiàn)的詞進(jìn)行校驗(yàn),省去人工校驗(yàn),能夠高抽取的領(lǐng)域詞的質(zhì)量。??