考慮詞語相似度的計(jì)算文檔所對(duì)應(yīng)的主題的方法

基本信息

申請(qǐng)?zhí)?/td> CN201810022783.1 申請(qǐng)日 -
公開(公告)號(hào) CN108255809B 公開(公告)日 2021-10-08
申請(qǐng)公布號(hào) CN108255809B 申請(qǐng)公布日 2021-10-08
分類號(hào) G06F40/30(2020.01)I;G06F40/289(2020.01)I;G06F16/31(2019.01)I;G06K9/62(2006.01)I;G06N5/02(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 賈喜瑞;初天寶 申請(qǐng)(專利權(quán))人 北京海存志合科技股份有限公司
代理機(jī)構(gòu) 北京市商泰律師事務(wù)所 代理人 黃曉軍
地址 100085北京市海淀區(qū)信息路甲28號(hào)7層D座07A28
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種考慮詞語相似度的計(jì)算文檔所對(duì)應(yīng)的主題的方法。包括根據(jù)已知主題及其主題詞語分布構(gòu)建主題詞語知識(shí)庫;對(duì)于待計(jì)算主題的文檔初始化主題?詞語矩陣和文檔?主題矩陣;再根據(jù)主題詞語知識(shí)庫獲取文檔所包含詞語之間的相似度,利用詞語之間的相似度對(duì)主題?詞語矩陣和文檔?主題矩陣進(jìn)行迭代更新,直到兩個(gè)矩陣達(dá)到收斂精度則停止計(jì)算,得到待計(jì)算主題的文檔所對(duì)應(yīng)的主題。本發(fā)明利用非負(fù)矩陣分解技術(shù),自動(dòng)批量計(jì)算文檔主題。在計(jì)算過程中,融入詞語語義近似度和文檔類別信息,提高主題計(jì)算的準(zhǔn)確度;同時(shí)考慮主題詞語的語義演化,將計(jì)算出的最終結(jié)果融入到知識(shí)庫中,使知識(shí)庫保持最新的詞語語義信息。