一種海量短文本自適應(yīng)分桶的反向去重方法

基本信息

申請?zhí)?/td> CN202011500654.2 申請日 -
公開(公告)號 CN112487177A 公開(公告)日 2021-03-12
申請公布號 CN112487177A 申請公布日 2021-03-12
分類號 G06F16/335(2019.01)I;G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 楊祎聰;金霞;楊紅飛 申請(專利權(quán))人 杭州火石數(shù)智科技有限公司
代理機(jī)構(gòu) 杭州求是專利事務(wù)所有限公司 代理人 劉靜
地址 310051浙江省杭州市濱江區(qū)江南大道3880號華榮時代大廈1310室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種海量短文本自適應(yīng)分桶的反向去重方法,該方法包括以下步驟:首先對全量數(shù)據(jù)進(jìn)行自適應(yīng)分桶;然后對每個桶內(nèi)的數(shù)據(jù)進(jìn)行排序,去重時將排序靠后的數(shù)據(jù)去重,對排序后的數(shù)據(jù)進(jìn)行兩兩比較,根據(jù)相似度判斷兩個數(shù)據(jù)之間是高度相似、相似還是不相似,不相似的數(shù)據(jù)不被去重,相似的數(shù)據(jù)直接被去重,高度相似的數(shù)據(jù)比較特征子串,將特征子串一樣的去重。最后合并各個桶被去重的數(shù)據(jù),從全量數(shù)據(jù)中剔除被去重的數(shù)據(jù)得到去重的全量數(shù)據(jù)。本發(fā)明可以在保證盡可能將相似的數(shù)據(jù)分到一個桶的情況下有效避免數(shù)據(jù)傾斜,解決了同一個桶內(nèi)本應(yīng)該被去重的數(shù)據(jù)遺漏的問題。??