基于詞性對齊的文本相似度計算方法

基本信息

申請?zhí)?/td> CN202010887857.5 申請日 -
公開(公告)號 CN112016306A 公開(公告)日 2020-12-01
申請公布號 CN112016306A 申請公布日 2020-12-01
分類號 G06F40/247(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 覃勛輝;杜若;唐成友 申請(專利權(quán))人 重慶邂智科技有限公司
代理機構(gòu) 重慶強大凱創(chuàng)專利代理事務(wù)所(普通合伙) 代理人 重慶邂智科技有限公司
地址 400000重慶市渝北區(qū)金開大道西段106號互聯(lián)網(wǎng)產(chǎn)業(yè)園11幢3樓1號房B2-4
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體為基于詞性對齊的文本相似度計算方法,包括:S100:對第一語句和第二語句進行分詞和詞性標注;S300:計算第一語句的分詞和第二語句的分詞之間的同義詞關(guān)系,得到同義詞矩陣;S400:依次對每一種詞性執(zhí)行步驟S401至步驟S404;S401:從第一語句和第二語句中提取當前詞性對應(yīng)的分詞,得到第一分詞序列和第二分詞序列;S403:判斷第一分詞序列與第二分詞序列的各個分詞之間的對應(yīng)關(guān)系,得到第一語句和第二語句的對齊結(jié)果;S404:根據(jù)對齊結(jié)果統(tǒng)計當前詞性的對齊特征;S500:根據(jù)統(tǒng)計的對齊特征,計算文本相似度。本申請的基于詞性對齊的文本相似度計算方法,能夠解決現(xiàn)有算法存在的訓(xùn)練數(shù)據(jù)量大、計算復(fù)雜、準確率低的問題。??