一種基于網(wǎng)絡(luò)爬蟲(chóng)與結(jié)構(gòu)化存儲(chǔ)的數(shù)據(jù)處理方法

基本信息

申請(qǐng)?zhí)?/td> CN201610361299.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN106055618B 公開(kāi)(公告)日 2020-02-07
申請(qǐng)公布號(hào) CN106055618B 申請(qǐng)公布日 2020-02-07
分類(lèi)號(hào) G06F16/951 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鄭文毅;謝曉勇;黃俊 申請(qǐng)(專(zhuān)利權(quán))人 優(yōu)品財(cái)富管理股份有限公司
代理機(jī)構(gòu) 北京卓唐知識(shí)產(chǎn)權(quán)代理有限公司 代理人 優(yōu)品財(cái)富管理有限公司
地址 430000 湖北省武漢市東湖高新區(qū)光谷大道77號(hào)光谷金融港泰康大樓17層優(yōu)品財(cái)富
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于網(wǎng)絡(luò)爬蟲(chóng)與結(jié)構(gòu)化存儲(chǔ)的數(shù)據(jù)處理方法,屬于計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域。本發(fā)明包括如下步驟:步驟一:確定數(shù)據(jù)源并配置網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng);步驟二:根據(jù)數(shù)據(jù)源特征以及預(yù)設(shè)的元數(shù)據(jù)結(jié)構(gòu),對(duì)數(shù)據(jù)處理界面進(jìn)行配置;步驟三:針對(duì)網(wǎng)頁(yè)爬蟲(chóng)獲取的數(shù)據(jù)與文件進(jìn)行篩選排重;步驟四:依據(jù)索引把數(shù)據(jù)與文件的調(diào)取到不同的數(shù)據(jù)維護(hù)界面。本發(fā)明不需要大量人員去跟蹤各個(gè)數(shù)據(jù)來(lái)源,也減少了數(shù)據(jù)來(lái)源比對(duì),排重的工作量,有效的提高了獲取數(shù)據(jù)的效率。在數(shù)據(jù)存儲(chǔ)過(guò)程中,采用了結(jié)構(gòu)化的處理方式,對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,數(shù)據(jù)進(jìn)入數(shù)據(jù)庫(kù)前會(huì)經(jīng)過(guò)正確的邏輯校驗(yàn),保證了數(shù)據(jù)的準(zhǔn)確性和完整性。網(wǎng)絡(luò)爬蟲(chóng)模塊。