一種相似文檔檢索方法、裝置、電子設(shè)備及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202111407744.1 | 申請日 | - |
公開(公告)號 | CN114117005A | 公開(公告)日 | 2022-03-01 |
申請公布號 | CN114117005A | 申請公布日 | 2022-03-01 |
分類號 | G06F16/332(2019.01)I;G06F16/35(2019.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 楊珉;孫立奮;毛紹嶸 | 申請(專利權(quán))人 | 天翼數(shù)字生活科技有限公司 |
代理機(jī)構(gòu) | 北京集佳知識產(chǎn)權(quán)代理有限公司 | 代理人 | 楊麗爽 |
地址 | 200040上海市靜安區(qū)萬榮路1256、1258號1423室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種相似文檔檢索方法、裝置、電子設(shè)備及存儲介質(zhì),用于解決現(xiàn)有的相似文檔檢索方法時(shí)間成本高,效率低的技術(shù)問題。本發(fā)明包括:獲取訓(xùn)練文檔庫;所述訓(xùn)練文檔庫包括多篇文檔,每篇文檔具有對應(yīng)的文檔ID;根據(jù)所述文檔構(gòu)建訓(xùn)練數(shù)據(jù)集;采用所述訓(xùn)練數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),得到目標(biāo)神經(jīng)網(wǎng)絡(luò);接收目標(biāo)文檔,采用所述目標(biāo)文檔生成目標(biāo)訓(xùn)練數(shù)據(jù)集;將所述目標(biāo)訓(xùn)練數(shù)據(jù)集輸入所述目標(biāo)神經(jīng)網(wǎng)絡(luò),得到所述目標(biāo)文檔的目標(biāo)向量;計(jì)算所述目標(biāo)向量與預(yù)設(shè)數(shù)據(jù)庫中的對比向量之間的差值,并將差值小于預(yù)設(shè)閾值的對比向量對應(yīng)的文檔作為相似文檔。 |
