一種海量短文本自適應(yīng)分桶的反向去重方法
基本信息
申請?zhí)?/td> | CN202011500654.2 | 申請日 | - |
公開(公告)號 | CN112487177A | 公開(公告)日 | 2021-03-12 |
申請公布號 | CN112487177A | 申請公布日 | 2021-03-12 |
分類號 | G06F16/335(2019.01)I;G06F40/289(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 楊祎聰;金霞;楊紅飛 | 申請(專利權(quán))人 | 杭州火石數(shù)智科技有限公司 |
代理機(jī)構(gòu) | 杭州求是專利事務(wù)所有限公司 | 代理人 | 劉靜 |
地址 | 310051浙江省杭州市濱江區(qū)江南大道3880號華榮時代大廈1310室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種海量短文本自適應(yīng)分桶的反向去重方法,該方法包括以下步驟:首先對全量數(shù)據(jù)進(jìn)行自適應(yīng)分桶;然后對每個桶內(nèi)的數(shù)據(jù)進(jìn)行排序,去重時將排序靠后的數(shù)據(jù)去重,對排序后的數(shù)據(jù)進(jìn)行兩兩比較,根據(jù)相似度判斷兩個數(shù)據(jù)之間是高度相似、相似還是不相似,不相似的數(shù)據(jù)不被去重,相似的數(shù)據(jù)直接被去重,高度相似的數(shù)據(jù)比較特征子串,將特征子串一樣的去重。最后合并各個桶被去重的數(shù)據(jù),從全量數(shù)據(jù)中剔除被去重的數(shù)據(jù)得到去重的全量數(shù)據(jù)。本發(fā)明可以在保證盡可能將相似的數(shù)據(jù)分到一個桶的情況下有效避免數(shù)據(jù)傾斜,解決了同一個桶內(nèi)本應(yīng)該被去重的數(shù)據(jù)遺漏的問題。?? |
