考慮詞語相似度的計算文檔所對應的主題的方法
基本信息
申請?zhí)?/td> | CN201810022783.1 | 申請日 | - |
公開(公告)號 | CN108255809A | 公開(公告)日 | 2018-07-06 |
申請公布號 | CN108255809A | 申請公布日 | 2018-07-06 |
分類號 | G06F17/27;G06K9/62;G06N5/02 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 賈喜瑞;初天寶 | 申請(專利權(quán))人 | 北京海存志合科技股份有限公司 |
代理機構(gòu) | 北京市商泰律師事務所 | 代理人 | 黃曉軍 |
地址 | 100085 北京市海淀區(qū)信息路甲28號7層D座07A28 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種考慮詞語相似度的計算文檔所對應的主題的方法。包括根據(jù)已知主題及其主題詞語分布構(gòu)建主題詞語知識庫;對于待計算主題的文檔初始化主題?詞語矩陣和文檔?主題矩陣;再根據(jù)主題詞語知識庫獲取文檔所包含詞語之間的相似度,利用詞語之間的相似度對主題?詞語矩陣和文檔?主題矩陣進行迭代更新,直到兩個矩陣達到收斂精度則停止計算,得到待計算主題的文檔所對應的主題。本發(fā)明利用非負矩陣分解技術(shù),自動批量計算文檔主題。在計算過程中,融入詞語語義近似度和文檔類別信息,提高主題計算的準確度;同時考慮主題詞語的語義演化,將計算出的最終結(jié)果融入到知識庫中,使知識庫保持最新的詞語語義信息。 |
