一種相似文檔檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202111407744.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114117005A | 公開(公告)日 | 2022-03-01 |
申請(qǐng)公布號(hào) | CN114117005A | 申請(qǐng)公布日 | 2022-03-01 |
分類號(hào) | G06F16/332(2019.01)I;G06F16/35(2019.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 楊珉;孫立奮;毛紹嶸 | 申請(qǐng)(專利權(quán))人 | 天翼數(shù)字生活科技有限公司 |
代理機(jī)構(gòu) | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 楊麗爽 |
地址 | 200040上海市靜安區(qū)萬(wàn)榮路1256、1258號(hào)1423室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種相似文檔檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用于解決現(xiàn)有的相似文檔檢索方法時(shí)間成本高,效率低的技術(shù)問(wèn)題。本發(fā)明包括:獲取訓(xùn)練文檔庫(kù);所述訓(xùn)練文檔庫(kù)包括多篇文檔,每篇文檔具有對(duì)應(yīng)的文檔ID;根據(jù)所述文檔構(gòu)建訓(xùn)練數(shù)據(jù)集;采用所述訓(xùn)練數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到目標(biāo)神經(jīng)網(wǎng)絡(luò);接收目標(biāo)文檔,采用所述目標(biāo)文檔生成目標(biāo)訓(xùn)練數(shù)據(jù)集;將所述目標(biāo)訓(xùn)練數(shù)據(jù)集輸入所述目標(biāo)神經(jīng)網(wǎng)絡(luò),得到所述目標(biāo)文檔的目標(biāo)向量;計(jì)算所述目標(biāo)向量與預(yù)設(shè)數(shù)據(jù)庫(kù)中的對(duì)比向量之間的差值,并將差值小于預(yù)設(shè)閾值的對(duì)比向量對(duì)應(yīng)的文檔作為相似文檔。 |
