一種分析非結(jié)構(gòu)化數(shù)據(jù)的方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202110233220.9 申請(qǐng)日 -
公開(公告)號(hào) CN113010629A 公開(公告)日 2021-06-22
申請(qǐng)公布號(hào) CN113010629A 申請(qǐng)公布日 2021-06-22
分類號(hào) G06F16/31;G06F16/332 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 崔文正;王拓;和樹偉;陸林鋒 申請(qǐng)(專利權(quán))人 上海七牛信息技術(shù)有限公司
代理機(jī)構(gòu) 上海碩力知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 郭桂峰
地址 201203 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)博霞路66號(hào)1-5層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種分析非結(jié)構(gòu)化數(shù)據(jù)的方法和系統(tǒng),該方法包括:讀入目標(biāo)數(shù)據(jù)源,解析目標(biāo)數(shù)據(jù)源數(shù)據(jù)獲得提取字段列表;生成搜索規(guī)則和搜索表達(dá)式,將搜索規(guī)則添加到歷史字段規(guī)則映射庫(kù)用以后續(xù)學(xué)習(xí);根據(jù)目標(biāo)數(shù)據(jù)源確定解析后的結(jié)構(gòu)化數(shù)據(jù)的表結(jié)構(gòu),保存所述表結(jié)構(gòu);基于所述搜索規(guī)則和搜索表達(dá)式從目標(biāo)數(shù)據(jù)源中解析獲得字段信息,按照所述表結(jié)構(gòu)保存獲得的字段信息,得到結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明所述方法和系統(tǒng),明顯降低了對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理成本,減少了信息損失,提高了對(duì)數(shù)據(jù)的分析提取效率,因此具有明顯的技術(shù)優(yōu)勢(shì)和有益效果。