一種實現(xiàn)智能聯(lián)想的行業(yè)詞語關聯(lián)度分詞方法

基本信息

申請?zhí)?/td> CN201310430100.3 申請日 -
公開(公告)號 CN104462052A 公開(公告)日 2015-03-25
申請公布號 CN104462052A 申請公布日 2015-03-25
分類號 G06F17/27(2006.01)I;G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 周小偉;商杰 申請(專利權)人 上海博科資訊股份有限公司
代理機構 - 代理人 -
地址 200333 上海市靜安區(qū)延安西路376弄22號5樓
法律狀態(tài) -

摘要

摘要 本發(fā)明為了彌補現(xiàn)有漢語分詞技術的不足,提出了一種實現(xiàn)智能聯(lián)想的行業(yè)詞語關聯(lián)度分詞方法。利用基于語義距離的概念相似度計算公式來獲得任一概念的相關概念,從而給出了屬于此行業(yè)領域的語義詞典完整的自動構建方法。建立分布式遞歸模型,將本地詞庫寫入云端詞庫,檢索行業(yè)文章并存數(shù)據(jù)庫,用云端詞庫過濾出屬于本行業(yè)的詞匯,根據(jù)隊列中消息讀取云端數(shù)據(jù),對數(shù)據(jù)進行去噪并分詞,取出出現(xiàn)次數(shù)最多的N個詞,或取出出現(xiàn)次數(shù)最多的一個詞,統(tǒng)計單據(jù)數(shù)量和詞語出現(xiàn)的次數(shù)。之后,計算詞語在每張單據(jù)中出現(xiàn)的平均次數(shù)。最后,計算詞語出現(xiàn)次數(shù)的標準差,從而實現(xiàn)快速、準確聯(lián)想。