一種文本相似度計算方法、裝置、計算機設備和存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202110431440.2 申請日 -
公開(公告)號 CN113076404A 公開(公告)日 2021-07-06
申請公布號 CN113076404A 申請公布日 2021-07-06
分類號 G06F16/33(2019.01)I;G06F40/289(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 黃友福;肖龍源;李稀敏 申請(專利權(quán))人 廈門快商通科技股份有限公司
代理機構(gòu) 廈門市首創(chuàng)君合專利事務所有限公司 代理人 連耀忠;李艾華
地址 361000福建省廈門市軟件園三期誠毅北大街63號1301單元
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本相似度計算方法、裝置、計算機設備和存儲介質(zhì),方法包括:計算第一待匹配語句和第二待匹配語句間的基礎相似度;對第一待匹配語句和第二待匹配語句進行分詞,并對分詞后的所有單詞進行詞性標注;分別對第一待匹配語句和第二待匹配語句分詞后的所有單詞進行向量化以獲得詞向量;計算相似度懲罰系數(shù);基于基礎相似度和相似度懲罰系數(shù),獲得第一待匹配語句和第二待匹配語句間的最終相似度。本發(fā)明在計算文本間相似度時引入了與單個詞向量及詞性種類相關的相似度懲罰系數(shù),能夠有效降低相似度識別錯誤的概率。