一種相似文檔檢測方法、系統(tǒng)、終端設備及計算機可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011012142.1 申請日 -
公開(公告)號 CN112163409A 公開(公告)日 2021-01-01
申請公布號 CN112163409A 申請公布日 2021-01-01
分類號 G06F40/194(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 肖暢;錢百萬;譚茵;何克東;張奕;朱葛 申請(專利權)人 平安直通咨詢有限公司上海分公司
代理機構 深圳市沃德知識產(chǎn)權代理事務所(普通合伙) 代理人 平安直通咨詢有限公司上海分公司
地址 200000上海市靜安區(qū)常熟路8號裙房4層A室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)分析技術領域,揭露了一種相似文檔檢測方法,該方法包括:對目標文檔進行分詞處理,得到所述目標文檔的第一分詞集合;根據(jù)所述第一分詞集合中分詞的詞頻及權重確定所述目標文檔的多維向量;對各歷史文檔進行分詞處理,得到每個歷史文檔各自的第二分詞集合;根據(jù)所述第二分詞集合中分詞的詞頻及權重確定各歷史文檔的多維向量;根據(jù)所述目標文檔的多維向量與所述各歷史文檔的多維向量,確定所述目標文檔與所述各歷史文檔的相似度,將相似度滿足要求的歷史文檔確定為與所述目標文檔相似的文檔。這樣,根據(jù)多維向量確定目標文檔與各歷史文檔的相似度,提高相似文檔檢測效率及準確度,減少時間消耗。??