一種基于深度學(xué)習(xí)的文本關(guān)鍵詞提取方法
基本信息
申請(qǐng)?zhí)?/td> | CN201610394935.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106095749A | 公開(公告)日 | 2016-11-09 |
申請(qǐng)公布號(hào) | CN106095749A | 申請(qǐng)公布日 | 2016-11-09 |
分類號(hào) | G06F17/27(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 凌立剛;朱海鵬 | 申請(qǐng)(專利權(quán))人 | 杭州量知數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 杭州求是專利事務(wù)所有限公司 | 代理人 | 杭州量知數(shù)據(jù)科技有限公司 |
地址 | 310013 浙江省杭州市西湖區(qū)西溪路525號(hào)C樓492室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于深度學(xué)習(xí)的文本關(guān)鍵詞提取方法。該方法首先需要訓(xùn)練一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,所使用的訓(xùn)練數(shù)據(jù)是大量的文本及其關(guān)鍵詞,訓(xùn)練目標(biāo)是最大化關(guān)鍵詞基于文本的條件概率。對(duì)于每一組文本和關(guān)鍵詞,首先將其轉(zhuǎn)化為詞向量,然后輸入循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,使用隨機(jī)梯度下降方法更新網(wǎng)絡(luò)參數(shù)。模型訓(xùn)練結(jié)束后,對(duì)于一段待提取關(guān)鍵詞的文本,將其轉(zhuǎn)化為詞向量,輸入到已經(jīng)訓(xùn)練好的循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,可以生成這段文本的關(guān)鍵詞。本方法通過(guò)數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)了一個(gè)端到端的模型來(lái)實(shí)現(xiàn)文本關(guān)鍵詞的提取,相對(duì)于傳統(tǒng)的基于統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)的方法來(lái)說(shuō),本方法適應(yīng)性更強(qiáng),能夠根據(jù)不同的訓(xùn)練數(shù)據(jù)得到不同的模型,從而提取出符合特定領(lǐng)域要求的關(guān)鍵詞。 |
