基于詞性對齊的文本相似度計算方法
基本信息
申請?zhí)?/td> | CN202010887857.5 | 申請日 | - |
公開(公告)號 | CN112016306A | 公開(公告)日 | 2020-12-01 |
申請公布號 | CN112016306A | 申請公布日 | 2020-12-01 |
分類號 | G06F40/247(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 覃勛輝;杜若;唐成友 | 申請(專利權(quán))人 | 重慶邂智科技有限公司 |
代理機構(gòu) | 重慶強大凱創(chuàng)專利代理事務(wù)所(普通合伙) | 代理人 | 重慶邂智科技有限公司 |
地址 | 400000重慶市渝北區(qū)金開大道西段106號互聯(lián)網(wǎng)產(chǎn)業(yè)園11幢3樓1號房B2-4 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體為基于詞性對齊的文本相似度計算方法,包括:S100:對第一語句和第二語句進行分詞和詞性標注;S300:計算第一語句的分詞和第二語句的分詞之間的同義詞關(guān)系,得到同義詞矩陣;S400:依次對每一種詞性執(zhí)行步驟S401至步驟S404;S401:從第一語句和第二語句中提取當前詞性對應(yīng)的分詞,得到第一分詞序列和第二分詞序列;S403:判斷第一分詞序列與第二分詞序列的各個分詞之間的對應(yīng)關(guān)系,得到第一語句和第二語句的對齊結(jié)果;S404:根據(jù)對齊結(jié)果統(tǒng)計當前詞性的對齊特征;S500:根據(jù)統(tǒng)計的對齊特征,計算文本相似度。本申請的基于詞性對齊的文本相似度計算方法,能夠解決現(xiàn)有算法存在的訓(xùn)練數(shù)據(jù)量大、計算復(fù)雜、準確率低的問題。?? |
