一種文本相似度計(jì)算方法、終端設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN201910954112.3 申請(qǐng)日 -
公開(公告)號(hào) CN110705248A 公開(公告)日 2020-01-17
申請(qǐng)公布號(hào) CN110705248A 申請(qǐng)公布日 2020-01-17
分類號(hào) G06F40/194;G06F40/216;G06F40/242 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 肖肇宇;劉繼明;于敏敏;高力偉 申請(qǐng)(專利權(quán))人 廈門今立方科技有限公司
代理機(jī)構(gòu) 廈門市精誠(chéng)新創(chuàng)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 何家富
地址 361000 福建省廈門市軟件園三期誠(chéng)毅大街339號(hào)1903單元
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種文本相似度計(jì)算方法、終端設(shè)備及存儲(chǔ)介質(zhì),該方法中包括:S1:將待比對(duì)的兩個(gè)文本數(shù)據(jù)進(jìn)行預(yù)處理;S2:將預(yù)處理后的兩個(gè)文本數(shù)據(jù)進(jìn)行同義詞歸一化操作;S3:計(jì)算每個(gè)文本數(shù)據(jù)的文本向量;S4:將兩個(gè)文本數(shù)據(jù)的文本向量共同組成文本矩陣X,對(duì)該文本矩陣X進(jìn)行奇異值分解,并計(jì)算文本矩陣X中去除主要成分后的矩陣Y;S5:從矩陣Y中提取出兩個(gè)文本數(shù)據(jù)對(duì)應(yīng)的向量作為其優(yōu)選文本向量,根據(jù)每個(gè)文本數(shù)據(jù)對(duì)應(yīng)的優(yōu)選文本向量計(jì)算兩個(gè)文本數(shù)據(jù)之間的相似度。本發(fā)明考慮了同一領(lǐng)域范圍內(nèi),某一詞出現(xiàn)的頻率越高,則等同于其重要性越低的問(wèn)題,且在去除無(wú)意義信息的同時(shí),保持該領(lǐng)域內(nèi)的關(guān)鍵詞信息,從而提升相似度計(jì)算的準(zhǔn)確度。