一種基于深度學(xué)習(xí)及遺忘算法的中文分詞方法

基本信息

申請(qǐng)?zhí)?/td> CN201811258651.5 申請(qǐng)日 -
公開(公告)號(hào) CN109388806A 公開(公告)日 2019-02-26
申請(qǐng)公布號(hào) CN109388806A 申請(qǐng)公布日 2019-02-26
分類號(hào) G06F17/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 盧學(xué)裕;王安;楊大海;楊利軍 申請(qǐng)(專利權(quán))人 北京布本智能科技有限公司
代理機(jī)構(gòu) 北京東方芊悅知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 北京布本智能科技有限公司
地址 100102 北京市朝陽區(qū)望京利澤中園二區(qū)203號(hào)九層1908
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于深度學(xué)習(xí)及遺忘算法的中文分詞方法,包括以下步驟:一:逐字掃描句子獲取自然語言,采用深度學(xué)習(xí)分詞方法對(duì)掃描的自然語言劃分成詞語序列收入至第一詞庫;二:逐字掃描句子獲取自然語言,采用遺忘算法分詞方法對(duì)獲取的自然語言進(jìn)行斷字劃分成候選詞收入至第二詞庫,三:將第一詞庫中的詞語序列與第二詞庫中的候選詞融合獲取最終分詞結(jié)果,融合方法為:第二詞庫中的連續(xù)單字,若對(duì)應(yīng)深度學(xué)習(xí)中為詞,則合并為詞;第二詞庫中的單個(gè)單字,若對(duì)應(yīng)深度學(xué)習(xí)中為詞,則向前或向后合并為詞。本發(fā)明的分詞方法,通過將深度學(xué)習(xí)分詞方法和遺忘算法分詞方法的融合,可以自動(dòng)偵測(cè)領(lǐng)域知識(shí),完成無監(jiān)督領(lǐng)域新詞發(fā)現(xiàn)功能,提高分詞效果。