異常數(shù)據(jù)檢測(cè)方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN201710145015.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107122394B 公開(kāi)(公告)日 2020-02-14
申請(qǐng)公布號(hào) CN107122394B 申請(qǐng)公布日 2020-02-14
分類(lèi)號(hào) G06F16/35;G06N5/02 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李剛毅;趙小光;于坤元;劉剛 申請(qǐng)(專(zhuān)利權(quán))人 博彥科技股份有限公司
代理機(jī)構(gòu) 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 代理人 韓建偉;張永明
地址 100193 北京市海淀區(qū)西北旺東路10號(hào)院東區(qū)7號(hào)樓(博彥科技大廈)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種異常數(shù)據(jù)檢測(cè)方法和裝置。其中,該方法包括:獲取文本;從所述文本中提取多條數(shù)據(jù),其中,所述多條數(shù)據(jù)中的每一條數(shù)據(jù)均由多個(gè)屬性值構(gòu)成,每個(gè)屬性值對(duì)應(yīng)該數(shù)據(jù)的一個(gè)屬性,所述每一條數(shù)據(jù)的屬性均相同;對(duì)所述每一條數(shù)據(jù)的屬性值進(jìn)行匯合得到所述每一條數(shù)據(jù)的新屬性值,其中,所述每一條數(shù)據(jù)的新屬性值的個(gè)數(shù)小于匯合之前的所述每一條數(shù)據(jù)的屬性值的個(gè)數(shù);使用所述每一條數(shù)據(jù)的新屬性值進(jìn)行機(jī)器學(xué)習(xí)得到數(shù)據(jù)模型,其中,所述數(shù)據(jù)模型用于區(qū)分從文本中提取的數(shù)據(jù)是否為異常數(shù)據(jù)。通過(guò)本發(fā)明解決了現(xiàn)有技術(shù)中所存在的用于培訓(xùn)的數(shù)據(jù)維度大導(dǎo)致的問(wèn)題,提高培訓(xùn)效率的同時(shí)提高了培訓(xùn)結(jié)果的準(zhǔn)確度。