一種基于深度學(xué)習(xí)的文本關(guān)鍵詞提取方法

基本信息

申請(qǐng)?zhí)?/td> CN201610394935.1 申請(qǐng)日 -
公開(公告)號(hào) CN106095749A 公開(公告)日 2016-11-09
申請(qǐng)公布號(hào) CN106095749A 申請(qǐng)公布日 2016-11-09
分類號(hào) G06F17/27(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 凌立剛;朱海鵬 申請(qǐng)(專利權(quán))人 杭州量知數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 杭州求是專利事務(wù)所有限公司 代理人 杭州量知數(shù)據(jù)科技有限公司
地址 310013 浙江省杭州市西湖區(qū)西溪路525號(hào)C樓492室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于深度學(xué)習(xí)的文本關(guān)鍵詞提取方法。該方法首先需要訓(xùn)練一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,所使用的訓(xùn)練數(shù)據(jù)是大量的文本及其關(guān)鍵詞,訓(xùn)練目標(biāo)是最大化關(guān)鍵詞基于文本的條件概率。對(duì)于每一組文本和關(guān)鍵詞,首先將其轉(zhuǎn)化為詞向量,然后輸入循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,使用隨機(jī)梯度下降方法更新網(wǎng)絡(luò)參數(shù)。模型訓(xùn)練結(jié)束后,對(duì)于一段待提取關(guān)鍵詞的文本,將其轉(zhuǎn)化為詞向量,輸入到已經(jīng)訓(xùn)練好的循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,可以生成這段文本的關(guān)鍵詞。本方法通過(guò)數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)了一個(gè)端到端的模型來(lái)實(shí)現(xiàn)文本關(guān)鍵詞的提取,相對(duì)于傳統(tǒng)的基于統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)的方法來(lái)說(shuō),本方法適應(yīng)性更強(qiáng),能夠根據(jù)不同的訓(xùn)練數(shù)據(jù)得到不同的模型,從而提取出符合特定領(lǐng)域要求的關(guān)鍵詞。