一種文本相似度計(jì)算方法、終端設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201910954112.3 申請日 -
公開(公告)號 CN110705248A 公開(公告)日 2020-01-17
申請公布號 CN110705248A 申請公布日 2020-01-17
分類號 G06F40/194;G06F40/216;G06F40/242 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 肖肇宇;劉繼明;于敏敏;高力偉 申請(專利權(quán))人 廈門今立方科技有限公司
代理機(jī)構(gòu) 廈門市精誠新創(chuàng)知識產(chǎn)權(quán)代理有限公司 代理人 何家富
地址 361000 福建省廈門市軟件園三期誠毅大街339號1903單元
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種文本相似度計(jì)算方法、終端設(shè)備及存儲介質(zhì),該方法中包括:S1:將待比對的兩個(gè)文本數(shù)據(jù)進(jìn)行預(yù)處理;S2:將預(yù)處理后的兩個(gè)文本數(shù)據(jù)進(jìn)行同義詞歸一化操作;S3:計(jì)算每個(gè)文本數(shù)據(jù)的文本向量;S4:將兩個(gè)文本數(shù)據(jù)的文本向量共同組成文本矩陣X,對該文本矩陣X進(jìn)行奇異值分解,并計(jì)算文本矩陣X中去除主要成分后的矩陣Y;S5:從矩陣Y中提取出兩個(gè)文本數(shù)據(jù)對應(yīng)的向量作為其優(yōu)選文本向量,根據(jù)每個(gè)文本數(shù)據(jù)對應(yīng)的優(yōu)選文本向量計(jì)算兩個(gè)文本數(shù)據(jù)之間的相似度。本發(fā)明考慮了同一領(lǐng)域范圍內(nèi),某一詞出現(xiàn)的頻率越高,則等同于其重要性越低的問題,且在去除無意義信息的同時(shí),保持該領(lǐng)域內(nèi)的關(guān)鍵詞信息,從而提升相似度計(jì)算的準(zhǔn)確度。