一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN201810937072.7 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109145299B 公開(kāi)(公告)日 2022-06-21
申請(qǐng)公布號(hào) CN109145299B 申請(qǐng)公布日 2022-06-21
分類號(hào) G06F40/30;G06F16/35;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 史文麗;王晨光 申請(qǐng)(專利權(quán))人 北京金山安全軟件有限公司
代理機(jī)構(gòu) 北京柏杉松知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 丁蕓;項(xiàng)京
地址 100123 北京市朝陽(yáng)區(qū)姚家園南路1號(hào)惠通時(shí)代廣場(chǎng)8號(hào)樓
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例提供了一種文本相似度確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),其中,該方法包括;確定待分析文本;對(duì)待分析文本進(jìn)行分句,得到待分析文本對(duì)應(yīng)的多個(gè)句子;針對(duì)每個(gè)句子,將該句子輸入至預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,得到該句子對(duì)應(yīng)的語(yǔ)義特征向量,其中,神經(jīng)網(wǎng)絡(luò)模型是根據(jù)多個(gè)第一訓(xùn)練樣本以及多個(gè)第一訓(xùn)練樣本分別對(duì)應(yīng)的關(guān)聯(lián)句子訓(xùn)練得到的;根據(jù)每個(gè)句子對(duì)應(yīng)的語(yǔ)義特征向量,確定待分析文本對(duì)應(yīng)的特定特征向量;計(jì)算待分析文本對(duì)應(yīng)的特定特征向量之間的相似度,并將該相似度作為待分析文本之間的相似度。如此,能夠提高文本相似度確定的準(zhǔn)確度。