一種用于中文分詞的方法與裝置

基本信息

申請(qǐng)?zhí)?/td> CN201911310472.6 申請(qǐng)日 -
公開(公告)號(hào) CN111651985A 公開(公告)日 2020-09-11
申請(qǐng)公布號(hào) CN111651985A 申請(qǐng)公布日 2020-09-11
分類號(hào) G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 田元賀;宋彥 申請(qǐng)(專利權(quán))人 創(chuàng)新工場(chǎng)(廣州)人工智能研究有限公司
代理機(jī)構(gòu) 北京啟坤知識(shí)產(chǎn)權(quán)代理有限公司 代理人 趙晶
地址 510700廣東省廣州市黃埔區(qū)光譜中路23號(hào)A2棟1001房
法律狀態(tài) -

摘要

摘要 本發(fā)明的目的是提供一種中文分詞方法與裝置。針對(duì)輸入文本,通過查詢?cè)~表,構(gòu)建其中每個(gè)字的鍵?值記憶對(duì);將所構(gòu)建的每個(gè)鍵?值記憶對(duì)映射為一個(gè)鍵向量和一個(gè)值向量;確定所述輸入文本中每個(gè)字經(jīng)上下文信息編碼獲得的字向量與該字的所有值向量的加權(quán)和之和;根據(jù)所述輸入文本中每個(gè)字對(duì)應(yīng)的所述和進(jìn)行分詞預(yù)測(cè),以獲得相應(yīng)的分詞結(jié)果,所述分詞結(jié)果指示所述輸入文本中的分詞標(biāo)簽。本發(fā)明在上下文信息編碼層和解碼輸出層之間進(jìn)行了創(chuàng)新,加入鍵?值記憶層以將詞邊界信息融入現(xiàn)有的基于深度學(xué)習(xí)的分詞模型的框架中。因此,本發(fā)明能夠在基于深度學(xué)習(xí)的分詞模型中有效利用詞邊界信息,進(jìn)而提升分詞模型的性能,以及提高中文分詞的準(zhǔn)確率。??