一種基于人工智能的NLP分析識別與數(shù)據(jù)清洗方法

基本信息

申請?zhí)?/td> CN202210071894.8 申請日 -
公開(公告)號 CN114626346A 公開(公告)日 2022-06-14
申請公布號 CN114626346A 申請公布日 2022-06-14
分類號 G06F40/166(2020.01)I;G06F40/169(2020.01)I;G06F40/205(2020.01)I;G06F40/279(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 荊斌華 申請(專利權(quán))人 錦創(chuàng)科技股份有限公司
代理機(jī)構(gòu) 北京集智東方知識產(chǎn)權(quán)代理有限公司 代理人 -
地址 210000江蘇省南京市秦淮區(qū)太平南路211號九龍大廈6、11、12、13層
法律狀態(tài) -

摘要

摘要 本發(fā)明適用于數(shù)據(jù)清洗技術(shù)領(lǐng)域,提供了一種基于人工智能的NLP分析識別與數(shù)據(jù)清洗方法,通過NPL模塊第一步唯一性檢查,這樣既可以去掉多余重復(fù)的數(shù)據(jù),減輕數(shù)據(jù)處理的負(fù)擔(dān),方便后續(xù)的數(shù)據(jù)處理,又可以對重復(fù)的部分保留其權(quán)重的特點(diǎn);第二步權(quán)威性檢查,從而根據(jù)其權(quán)威性直接進(jìn)行權(quán)重排序,方便直觀的了解到重要的可信度高的數(shù)據(jù);第三步合理性檢查,這樣可以對有問題的數(shù)據(jù)進(jìn)行剔除,進(jìn)行進(jìn)一步的精選;第四步一致性檢查,從而可以對數(shù)據(jù)進(jìn)行分類,實現(xiàn)對數(shù)據(jù)的進(jìn)一步精選,第五步完整性檢查,從上述龐大數(shù)據(jù)中提取與缺損數(shù)據(jù)相關(guān)的內(nèi)容進(jìn)行補(bǔ)充完整,最后對主流的加權(quán)后排序的數(shù)據(jù)進(jìn)行保留,其余的數(shù)據(jù)統(tǒng)一刪除,實現(xiàn)快速的對數(shù)據(jù)清洗。