一種文本相似度計(jì)算方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202010530241.2 申請(qǐng)日 -
公開(公告)號(hào) CN111767724A 公開(公告)日 2020-10-13
申請(qǐng)公布號(hào) CN111767724A 申請(qǐng)公布日 2020-10-13
分類號(hào) G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 余祥;李強(qiáng);陳立哲;朱峰;李騰飛;顧正海 申請(qǐng)(專利權(quán))人 安徽旅賁科技有限公司
代理機(jī)構(gòu) 合肥天明專利事務(wù)所(普通合伙) 代理人 安徽旅賁科技有限公司
地址 230000安徽省合肥市高新區(qū)華佗巷103號(hào)國(guó)科軍通協(xié)同創(chuàng)新產(chǎn)業(yè)園A座212
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本相似度計(jì)算方法及系統(tǒng),屬于信息檢索技術(shù)領(lǐng)域,包括:對(duì)兩待比較文本分別進(jìn)行分詞處理,得到兩待比較文本對(duì)應(yīng)的分詞結(jié)果,分別為第一分詞結(jié)果和第二分詞結(jié)果;對(duì)于第一分詞結(jié)果中的單詞和第二分詞結(jié)果中的單詞,分別形成單詞所在整個(gè)文本的句意表示向量,得到兩待比較文本對(duì)應(yīng)的句意表示向量;基于向量空間模型計(jì)算兩待比較文本對(duì)應(yīng)的句意表示向量之間的相似度。本發(fā)明中相似度計(jì)算是基于當(dāng)前文本,依賴少,在保證較高準(zhǔn)確的同時(shí)能夠保持較快的速度。??