一種基于人工智能的NLP分析識別與數(shù)據(jù)清洗方法
基本信息
申請?zhí)?/td> | CN202210071894.8 | 申請日 | - |
公開(公告)號 | CN114626346A | 公開(公告)日 | 2022-06-14 |
申請公布號 | CN114626346A | 申請公布日 | 2022-06-14 |
分類號 | G06F40/166(2020.01)I;G06F40/169(2020.01)I;G06F40/205(2020.01)I;G06F40/279(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 荊斌華 | 申請(專利權(quán))人 | 錦創(chuàng)科技股份有限公司 |
代理機(jī)構(gòu) | 北京集智東方知識產(chǎn)權(quán)代理有限公司 | 代理人 | - |
地址 | 210000江蘇省南京市秦淮區(qū)太平南路211號九龍大廈6、11、12、13層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明適用于數(shù)據(jù)清洗技術(shù)領(lǐng)域,提供了一種基于人工智能的NLP分析識別與數(shù)據(jù)清洗方法,通過NPL模塊第一步唯一性檢查,這樣既可以去掉多余重復(fù)的數(shù)據(jù),減輕數(shù)據(jù)處理的負(fù)擔(dān),方便后續(xù)的數(shù)據(jù)處理,又可以對重復(fù)的部分保留其權(quán)重的特點(diǎn);第二步權(quán)威性檢查,從而根據(jù)其權(quán)威性直接進(jìn)行權(quán)重排序,方便直觀的了解到重要的可信度高的數(shù)據(jù);第三步合理性檢查,這樣可以對有問題的數(shù)據(jù)進(jìn)行剔除,進(jìn)行進(jìn)一步的精選;第四步一致性檢查,從而可以對數(shù)據(jù)進(jìn)行分類,實現(xiàn)對數(shù)據(jù)的進(jìn)一步精選,第五步完整性檢查,從上述龐大數(shù)據(jù)中提取與缺損數(shù)據(jù)相關(guān)的內(nèi)容進(jìn)行補(bǔ)充完整,最后對主流的加權(quán)后排序的數(shù)據(jù)進(jìn)行保留,其余的數(shù)據(jù)統(tǒng)一刪除,實現(xiàn)快速的對數(shù)據(jù)清洗。 |
