一種文本數(shù)據(jù)清洗方法、裝置及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202210041398.8 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114416986A | 公開(公告)日 | 2022-04-29 |
申請(qǐng)公布號(hào) | CN114416986A | 申請(qǐng)公布日 | 2022-04-29 |
分類號(hào) | G06F16/35(2019.01)I;G06F16/30(2019.01)I;G06F40/289(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 黃洪;楊磊 | 申請(qǐng)(專利權(quán))人 | 北京滴普科技有限公司 |
代理機(jī)構(gòu) | 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) | 代理人 | 賴學(xué)能 |
地址 | 100000北京市海淀區(qū)彩和坊路8號(hào)4層406 | ||
法律狀態(tài) | - |
摘要
摘要 | 本公開實(shí)施例中提供了一種文本數(shù)據(jù)清洗方法、電子設(shè)備及存儲(chǔ)介質(zhì),先對(duì)每個(gè)類目自身的數(shù)據(jù)進(jìn)行自去重,然后每?jī)蓚€(gè)類目之間進(jìn)行比較,找出標(biāo)注混淆的數(shù)據(jù)并進(jìn)行歸納。采用本公開實(shí)施例的方法,能夠使所有類目的文本數(shù)據(jù)都趨近于均衡,提高數(shù)據(jù)分析樣本均衡性。 |
