基于全文數(shù)據(jù)庫(kù)的數(shù)據(jù)清洗方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202010130614.7 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN113326253A | 公開(kāi)(公告)日 | 2021-08-31 |
申請(qǐng)公布號(hào) | CN113326253A | 申請(qǐng)公布日 | 2021-08-31 |
分類(lèi)號(hào) | G06F16/215(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王洪波;余江;張三海;林東嶠;崔哲敏 | 申請(qǐng)(專(zhuān)利權(quán))人 | 拓爾思天行網(wǎng)安信息技術(shù)有限責(zé)任公司 |
代理機(jī)構(gòu) | 北京志霖恒遠(yuǎn)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 郭棟梁 |
地址 | 100084北京市海淀區(qū)農(nóng)大南路1號(hào)院2號(hào)樓2A201、202 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)公開(kāi)了一種基于全文數(shù)據(jù)庫(kù)的數(shù)據(jù)清洗方法、裝置、設(shè)備和存儲(chǔ)介質(zhì),該方法包括根據(jù)預(yù)設(shè)規(guī)則從多個(gè)不同業(yè)務(wù)系統(tǒng)中抽取源數(shù)據(jù);根據(jù)預(yù)先設(shè)置的編碼表和字段名命名規(guī)則,分別翻譯源數(shù)據(jù),并修改源數(shù)據(jù)中的字段名;對(duì)經(jīng)過(guò)翻譯和修改字段名之后的源數(shù)據(jù)進(jìn)行分級(jí)標(biāo)引,生成成品數(shù)據(jù)并保存至全文數(shù)據(jù)庫(kù)。本申請(qǐng)實(shí)施例能夠?qū)⒉煌瑯I(yè)務(wù)系統(tǒng)中的數(shù)據(jù)統(tǒng)一抽取、加工,并生成成品數(shù)據(jù)保存至全文數(shù)據(jù)庫(kù),同時(shí)將相關(guān)數(shù)據(jù)加工處理到同一條記錄中,保證了數(shù)據(jù)的完整性,彌補(bǔ)了全文數(shù)據(jù)庫(kù)不能關(guān)聯(lián)查詢(xún)的缺陷。 |
