一種多特征融合的中文分詞方法

基本信息

申請?zhí)?/td> CN202011399750.2 申請日 -
公開(公告)號 CN112464663A 公開(公告)日 2021-03-09
申請公布號 CN112464663A 申請公布日 2021-03-09
分類號 G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王會珍;姜濤;張新新 申請(專利權)人 小牛思拓(北京)科技有限公司
代理機構 沈陽優(yōu)普達知識產(chǎn)權代理事務所(特殊普通合伙) 代理人 李曉光
地址 110004遼寧省沈陽市和平區(qū)三好街東軟電腦城C座10樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種多特征融合的中文分詞方法,包括以下步驟:1)模型構建,對輸入文本序列進行分布式向量化,得到詞向量、位置向量以及偏旁部首向量表示,作為分詞模型的嵌入層;將BilSTM網(wǎng)絡層和CRF線性層結合訓練,得到中文分詞模型;2)模型訓練,使用已標注結果的文本數(shù)據(jù)輸入到上述BiLSTM?CRF模型,以此訓練模型;3)模型預測,使用訓練得到的基于BilSTM?CRF的中文分詞模型,將待分詞句子序列輸入到模型中,從而得到分詞標簽序列。本發(fā)明將標注文本中的詞向量、位置向量和偏旁部首向量融合到基于BiLSTM?CRF的深度學習模型,用于提升自然語言處理領域中中文分詞任務的準確性。??