一種文本數(shù)據(jù)清洗方法、裝置及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202210041398.8 申請(qǐng)日 -
公開(公告)號(hào) CN114416986A 公開(公告)日 2022-04-29
申請(qǐng)公布號(hào) CN114416986A 申請(qǐng)公布日 2022-04-29
分類號(hào) G06F16/35(2019.01)I;G06F16/30(2019.01)I;G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 黃洪;楊磊 申請(qǐng)(專利權(quán))人 北京滴普科技有限公司
代理機(jī)構(gòu) 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) 代理人 賴學(xué)能
地址 100000北京市海淀區(qū)彩和坊路8號(hào)4層406
法律狀態(tài) -

摘要

摘要 本公開實(shí)施例中提供了一種文本數(shù)據(jù)清洗方法、電子設(shè)備及存儲(chǔ)介質(zhì),先對(duì)每個(gè)類目自身的數(shù)據(jù)進(jìn)行自去重,然后每?jī)蓚€(gè)類目之間進(jìn)行比較,找出標(biāo)注混淆的數(shù)據(jù)并進(jìn)行歸納。采用本公開實(shí)施例的方法,能夠使所有類目的文本數(shù)據(jù)都趨近于均衡,提高數(shù)據(jù)分析樣本均衡性。