一種結(jié)合主題語(yǔ)義與TF*IDF算法的大規(guī)模文本分類方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202110481459.8 申請(qǐng)日 -
公開(公告)號(hào) CN113032573A 公開(公告)日 2021-06-25
申請(qǐng)公布號(hào) CN113032573A 申請(qǐng)公布日 2021-06-25
分類號(hào) G06F16/35;G06F40/30;G06F40/284 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 任偉;吳晨;繆建明;張全;韋向峰;袁毅;徐永潛 申請(qǐng)(專利權(quán))人 《中國(guó)學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司
代理機(jī)構(gòu) 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 代理人 王澤云
地址 100084 北京市海淀區(qū)清華園清華大學(xué)36區(qū)1407、1408、1409
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種語(yǔ)種無(wú)關(guān)的結(jié)合主題語(yǔ)義與TF*IDF算法的大規(guī)模文本分類方法及系統(tǒng),本方法以TF*IDF算法為基礎(chǔ),在特征向量選擇和權(quán)重計(jì)算過程中利用LDA計(jì)算的主題語(yǔ)義,通過LDA建模分析得到文檔?主題分布和主題?詞語(yǔ)分布,以此為基礎(chǔ)計(jì)算主題語(yǔ)義因子TSF,并將TSF作為新的量化維度引入特征選擇和特征向量權(quán)重計(jì)算中。本方法有效利用了特征項(xiàng)之間內(nèi)在的關(guān)聯(lián)性信息。也避免了直接根據(jù)LDA淺層主題語(yǔ)義進(jìn)行文本分類而造成的實(shí)時(shí)增量分類處理能力弱,計(jì)算結(jié)果不穩(wěn)定的問題。采用數(shù)據(jù)驅(qū)動(dòng)的處理模式,與語(yǔ)種無(wú)關(guān),無(wú)需額外的語(yǔ)言知識(shí)支撐,適合大規(guī)模、多語(yǔ)種文本數(shù)據(jù)的快速高效分類處理。