基于句子級(jí)索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202011424391.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112527948A 公開(kāi)(公告)日 2021-03-19
申請(qǐng)公布號(hào) CN112527948A 申請(qǐng)公布日 2021-03-19
分類(lèi)號(hào) G06F16/31(2019.01)I;G06F16/332(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張友豪;馮衛(wèi)強(qiáng) 申請(qǐng)(專(zhuān)利權(quán))人 上海大智慧財(cái)匯數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 上海段和段律師事務(wù)所 代理人 高璀璀;郭國(guó)中
地址 200120上海市浦東新區(qū)自由貿(mào)易試驗(yàn)區(qū)郭守敬路498號(hào)12幢21501-21507室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于句子級(jí)索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng),包括:索引構(gòu)建步驟:對(duì)數(shù)據(jù)構(gòu)建句子級(jí)索引;數(shù)據(jù)存儲(chǔ)步驟:將構(gòu)建的句子級(jí)索引放入ES集群和Redis集群的索引進(jìn)行存儲(chǔ),所述Redis集群存儲(chǔ)預(yù)定時(shí)間內(nèi)的數(shù)據(jù),所述ES集群存儲(chǔ)所有數(shù)據(jù);實(shí)時(shí)去重步驟:對(duì)待去重的數(shù)據(jù)進(jìn)行歷史相似性數(shù)據(jù)檢索,根據(jù)待去重的數(shù)據(jù)的文本長(zhǎng)度選擇相應(yīng)的相似度計(jì)算方法計(jì)算與歷史相似性數(shù)據(jù)檢索結(jié)果的相似度,根據(jù)相似度進(jìn)行去重,以及形成新的句子級(jí)索引并添加到ES集群和Redis集群的索引中。本發(fā)明針對(duì)不同長(zhǎng)度數(shù)據(jù),采用不同算法,同時(shí),對(duì)海量歷史數(shù)據(jù)采用句子集索引,充分結(jié)合ES和Redis的優(yōu)點(diǎn)進(jìn)行去重加快查詢、實(shí)時(shí)去重。??