基于句子級(jí)索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202011424391.1 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112527948A | 公開(kāi)(公告)日 | 2021-03-19 |
申請(qǐng)公布號(hào) | CN112527948A | 申請(qǐng)公布日 | 2021-03-19 |
分類(lèi)號(hào) | G06F16/31(2019.01)I;G06F16/332(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張友豪;馮衛(wèi)強(qiáng) | 申請(qǐng)(專(zhuān)利權(quán))人 | 上海大智慧財(cái)匯數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 上海段和段律師事務(wù)所 | 代理人 | 高璀璀;郭國(guó)中 |
地址 | 200120上海市浦東新區(qū)自由貿(mào)易試驗(yàn)區(qū)郭守敬路498號(hào)12幢21501-21507室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于句子級(jí)索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng),包括:索引構(gòu)建步驟:對(duì)數(shù)據(jù)構(gòu)建句子級(jí)索引;數(shù)據(jù)存儲(chǔ)步驟:將構(gòu)建的句子級(jí)索引放入ES集群和Redis集群的索引進(jìn)行存儲(chǔ),所述Redis集群存儲(chǔ)預(yù)定時(shí)間內(nèi)的數(shù)據(jù),所述ES集群存儲(chǔ)所有數(shù)據(jù);實(shí)時(shí)去重步驟:對(duì)待去重的數(shù)據(jù)進(jìn)行歷史相似性數(shù)據(jù)檢索,根據(jù)待去重的數(shù)據(jù)的文本長(zhǎng)度選擇相應(yīng)的相似度計(jì)算方法計(jì)算與歷史相似性數(shù)據(jù)檢索結(jié)果的相似度,根據(jù)相似度進(jìn)行去重,以及形成新的句子級(jí)索引并添加到ES集群和Redis集群的索引中。本發(fā)明針對(duì)不同長(zhǎng)度數(shù)據(jù),采用不同算法,同時(shí),對(duì)海量歷史數(shù)據(jù)采用句子集索引,充分結(jié)合ES和Redis的優(yōu)點(diǎn)進(jìn)行去重加快查詢、實(shí)時(shí)去重。?? |
