一種非平衡文本的相似度計(jì)算方法

基本信息

申請(qǐng)?zhí)?/td> 2020111079775 申請(qǐng)日 -
公開(公告)號(hào) CN112257410A 公開(公告)日 2021-01-22
申請(qǐng)公布號(hào) CN112257410A 申請(qǐng)公布日 2021-01-22
分類號(hào) G06F40/194(2020.01)I; 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 謝乾;馬甲林;蔣圣;戴晶;周國棟;汪濤;吳大超 申請(qǐng)(專利權(quán))人 南京科緹軟件科技有限公司
代理機(jī)構(gòu) 宜興知初知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 高春濤
地址 214205江蘇省無錫市宜興新街街道興業(yè)路298號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種非平衡文本的相似度計(jì)算方法,包括以下步驟:輸入語料庫并進(jìn)行預(yù)處理;采用word2vec模型對(duì)語料庫預(yù)訓(xùn)練詞向量;保存上述預(yù)訓(xùn)練所得的詞向量結(jié)果;輸入待計(jì)算相似度的較短文本T1和較長文本T2;采用TF?IDF對(duì)文本T1和文本T2進(jìn)行關(guān)鍵詞提取。對(duì)文本T1的所有關(guān)鍵詞基于詞向量結(jié)果進(jìn)行語義相關(guān)詞擴(kuò)充至和文本T2長度相等;計(jì)算文本T1和文本T2的相似度。采用本發(fā)明公開的相似度計(jì)算方法,可提高計(jì)算非平衡文本相似度的準(zhǔn)確率。??