一種非平衡文本的相似度計(jì)算方法
基本信息
申請(qǐng)?zhí)?/td> | 2020111079775 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112257410A | 公開(公告)日 | 2021-01-22 |
申請(qǐng)公布號(hào) | CN112257410A | 申請(qǐng)公布日 | 2021-01-22 |
分類號(hào) | G06F40/194(2020.01)I; | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 謝乾;馬甲林;蔣圣;戴晶;周國棟;汪濤;吳大超 | 申請(qǐng)(專利權(quán))人 | 南京科緹軟件科技有限公司 |
代理機(jī)構(gòu) | 宜興知初知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 高春濤 |
地址 | 214205江蘇省無錫市宜興新街街道興業(yè)路298號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種非平衡文本的相似度計(jì)算方法,包括以下步驟:輸入語料庫并進(jìn)行預(yù)處理;采用word2vec模型對(duì)語料庫預(yù)訓(xùn)練詞向量;保存上述預(yù)訓(xùn)練所得的詞向量結(jié)果;輸入待計(jì)算相似度的較短文本T1和較長文本T2;采用TF?IDF對(duì)文本T1和文本T2進(jìn)行關(guān)鍵詞提取。對(duì)文本T1的所有關(guān)鍵詞基于詞向量結(jié)果進(jìn)行語義相關(guān)詞擴(kuò)充至和文本T2長度相等;計(jì)算文本T1和文本T2的相似度。采用本發(fā)明公開的相似度計(jì)算方法,可提高計(jì)算非平衡文本相似度的準(zhǔn)確率。?? |
