無監(jiān)督分詞模型訓(xùn)練方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201710074389.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106708807B | 公開(公告)日 | 2019-11-15 |
申請(qǐng)公布號(hào) | CN106708807B | 申請(qǐng)公布日 | 2019-11-15 |
分類號(hào) | G06F17/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 姚佳 | 申請(qǐng)(專利權(quán))人 | 廣東惠禾科技發(fā)展有限公司 |
代理機(jī)構(gòu) | 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 廣東惠禾科技發(fā)展有限公司 |
地址 | 518054廣東省深圳市南山區(qū)粵海街道學(xué)府路2388號(hào)怡化金融科技大廈14樓01-02單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種無監(jiān)督分詞模型訓(xùn)練方法及裝置,應(yīng)用于分詞模型,所述分詞模型包括一詞庫(kù),所述方法包括:獲取目標(biāo)訓(xùn)練語句;確定一分詞最大字?jǐn)?shù),將所述分詞最大字?jǐn)?shù)作為分詞提取字?jǐn)?shù);從所述目標(biāo)訓(xùn)練語句中提取文字個(gè)數(shù)為所述分詞提取字?jǐn)?shù)的語句片段做為目標(biāo)語句片段,將該目標(biāo)語句片段與所述詞庫(kù)中已存的語句片段進(jìn)行比對(duì);當(dāng)所述詞庫(kù)中存在與所述目標(biāo)語句片段相同的語句片段時(shí),更新所述詞庫(kù)中該語句片段的出現(xiàn)頻次,并將該目標(biāo)語句片段從所述目標(biāo)訓(xùn)練語句中剔除;重復(fù)對(duì)目標(biāo)語句片段的提取及比對(duì)的步驟。如此,高效地實(shí)現(xiàn)了在無監(jiān)督的方式下對(duì)分詞模型進(jìn)行訓(xùn)練,并且得到分析模型對(duì)歧義語句的辨析能力強(qiáng)。 |
