無監(jiān)督分詞模型訓(xùn)練方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201710074389.8 申請(qǐng)日 -
公開(公告)號(hào) CN106708807B 公開(公告)日 2019-11-15
申請(qǐng)公布號(hào) CN106708807B 申請(qǐng)公布日 2019-11-15
分類號(hào) G06F17/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 姚佳 申請(qǐng)(專利權(quán))人 廣東惠禾科技發(fā)展有限公司
代理機(jī)構(gòu) 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 廣東惠禾科技發(fā)展有限公司
地址 518054廣東省深圳市南山區(qū)粵海街道學(xué)府路2388號(hào)怡化金融科技大廈14樓01-02單元
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種無監(jiān)督分詞模型訓(xùn)練方法及裝置,應(yīng)用于分詞模型,所述分詞模型包括一詞庫(kù),所述方法包括:獲取目標(biāo)訓(xùn)練語句;確定一分詞最大字?jǐn)?shù),將所述分詞最大字?jǐn)?shù)作為分詞提取字?jǐn)?shù);從所述目標(biāo)訓(xùn)練語句中提取文字個(gè)數(shù)為所述分詞提取字?jǐn)?shù)的語句片段做為目標(biāo)語句片段,將該目標(biāo)語句片段與所述詞庫(kù)中已存的語句片段進(jìn)行比對(duì);當(dāng)所述詞庫(kù)中存在與所述目標(biāo)語句片段相同的語句片段時(shí),更新所述詞庫(kù)中該語句片段的出現(xiàn)頻次,并將該目標(biāo)語句片段從所述目標(biāo)訓(xùn)練語句中剔除;重復(fù)對(duì)目標(biāo)語句片段的提取及比對(duì)的步驟。如此,高效地實(shí)現(xiàn)了在無監(jiān)督的方式下對(duì)分詞模型進(jìn)行訓(xùn)練,并且得到分析模型對(duì)歧義語句的辨析能力強(qiáng)。