一種識別相似文章的方法和裝置

基本信息

申請?zhí)?/td> CN201811482306.X 申請日 -
公開(公告)號 CN109615001B 公開(公告)日 2020-03-10
申請公布號 CN109615001B 申請公布日 2020-03-10
分類號 G06K9/62;G06F16/332 分類 計算;推算;計數(shù);
發(fā)明人 趙華蕾;張曉軍 申請(專利權(quán))人 上海愷英網(wǎng)絡(luò)科技有限公司
代理機構(gòu) 上海百一領(lǐng)御專利代理事務(wù)所(普通合伙) 代理人 上海愷英網(wǎng)絡(luò)科技有限公司
地址 200232 上海市徐匯區(qū)天鑰橋路909號1號樓148室
法律狀態(tài) -

摘要

摘要 本發(fā)明一種識別相似文章的方法和裝置,該方法包括:從第一文檔中提取第一關(guān)鍵詞;當所述第一關(guān)鍵詞與第二文檔的第二關(guān)鍵詞相同時,選取所述第一關(guān)鍵詞所在的第一語句并且選取所述第二關(guān)鍵詞所在的第二語句;根據(jù)所述第一語句和所述第二語句中相同字符串的長度計算所述第一語句與所述第二語句的相似度距離;當所述相似度距離超過預(yù)設(shè)相似度距離閾值時,確定所述第一文檔與所述第二文檔相似。本發(fā)明提供的一種識別相似文章的方法和裝置,方便靈活,計算消耗較小,適用參數(shù)少,可對短文本或數(shù)據(jù)集較少的文本進行處理。