考慮詞語相似度的計算文檔所對應的主題的方法

基本信息

申請?zhí)?/td> CN201810022783.1 申請日 -
公開(公告)號 CN108255809A 公開(公告)日 2018-07-06
申請公布號 CN108255809A 申請公布日 2018-07-06
分類號 G06F17/27;G06K9/62;G06N5/02 分類 計算;推算;計數(shù);
發(fā)明人 賈喜瑞;初天寶 申請(專利權(quán))人 北京海存志合科技股份有限公司
代理機構(gòu) 北京市商泰律師事務所 代理人 黃曉軍
地址 100085 北京市海淀區(qū)信息路甲28號7層D座07A28
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種考慮詞語相似度的計算文檔所對應的主題的方法。包括根據(jù)已知主題及其主題詞語分布構(gòu)建主題詞語知識庫;對于待計算主題的文檔初始化主題?詞語矩陣和文檔?主題矩陣;再根據(jù)主題詞語知識庫獲取文檔所包含詞語之間的相似度,利用詞語之間的相似度對主題?詞語矩陣和文檔?主題矩陣進行迭代更新,直到兩個矩陣達到收斂精度則停止計算,得到待計算主題的文檔所對應的主題。本發(fā)明利用非負矩陣分解技術(shù),自動批量計算文檔主題。在計算過程中,融入詞語語義近似度和文檔類別信息,提高主題計算的準確度;同時考慮主題詞語的語義演化,將計算出的最終結(jié)果融入到知識庫中,使知識庫保持最新的詞語語義信息。