同義詞挖掘方法及裝置
基本信息
申請?zhí)?/td> | CN201410193704.5 | 申請日 | - |
公開(公告)號 | CN103942339B | 公開(公告)日 | 2017-06-09 |
申請公布號 | CN103942339B | 申請公布日 | 2017-06-09 |
分類號 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 車天文;王更生;劉捷;雷大偉 | 申請(專利權)人 | 深圳宜搜天下科技股份有限公司 |
代理機構 | 深圳市凱達知識產權事務所 | 代理人 | 深圳市宜搜科技發(fā)展有限公司;深圳宜搜天下科技股份有限公司 |
地址 | 518026 廣東省深圳市福田區(qū)濱河路與彩田路交匯處聯(lián)合廣場A棟塔樓A5501-A | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種同義詞挖掘方法,上述方法為:提取類似對齊語料;對每對類似對齊語句S1、S2分別進行分詞處理,得到詞語序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);在每對詞語序列的S2(T2[1],T2[2],…,T2[j])中自適應挖掘S1(T1[1],T1[2],…,T1[i])的詞語的同義詞,并計算S1(T1[1],T1[2],…,T1[i])的詞語相對S2(T2[1],T2[2],…,T2[j])的詞語的同義概率;對NT1[i]相對于NT2[j]的同義概率進行迭代運算;計算NT1[i]相對于NT2[j]的全局同義置信度,并將置信度大于預設的置信度閾值的詞對作為同義詞輸出;本發(fā)明同時公開了一種同義詞挖掘裝置。本發(fā)明提升了同義詞挖掘的準確率,易于操作實現(xiàn)。 |
