一種基于網(wǎng)絡(luò)爬蟲與結(jié)構(gòu)化存儲的數(shù)據(jù)處理方法
基本信息
申請?zhí)?/td> | CN201610361299.2 | 申請日 | - |
公開(公告)號 | CN106055618A | 公開(公告)日 | 2016-10-26 |
申請公布號 | CN106055618A | 申請公布日 | 2016-10-26 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 鄭文毅;謝曉勇;黃俊 | 申請(專利權(quán))人 | 優(yōu)品財富管理股份有限公司 |
代理機構(gòu) | 北京卓唐知識產(chǎn)權(quán)代理有限公司 | 代理人 | 優(yōu)品財富管理有限公司 |
地址 | 430000 湖北省武漢市東湖高新區(qū)光谷大道77號光谷金融港泰康大樓17層優(yōu)品財富 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于網(wǎng)絡(luò)爬蟲與結(jié)構(gòu)化存儲的數(shù)據(jù)處理方法,屬于計算機應(yīng)用技術(shù)領(lǐng)域。本發(fā)明包括如下步驟:步驟一:確定數(shù)據(jù)源并配置網(wǎng)絡(luò)爬蟲系統(tǒng);步驟二:根據(jù)數(shù)據(jù)源特征以及預(yù)設(shè)的元數(shù)據(jù)結(jié)構(gòu),對數(shù)據(jù)處理界面進行配置;步驟三:針對網(wǎng)頁爬蟲獲取的數(shù)據(jù)與文件進行篩選排重;步驟四:依據(jù)索引把數(shù)據(jù)與文件的調(diào)取到不同的數(shù)據(jù)維護界面。本發(fā)明不需要大量人員去跟蹤各個數(shù)據(jù)來源,也減少了數(shù)據(jù)來源比對,排重的工作量,有效的提高了獲取數(shù)據(jù)的效率。在數(shù)據(jù)存儲過程中,采用了結(jié)構(gòu)化的處理方式,對數(shù)據(jù)進行了標準化,數(shù)據(jù)進入數(shù)據(jù)庫前會經(jīng)過正確的邏輯校驗,保證了數(shù)據(jù)的準確性和完整性。網(wǎng)絡(luò)爬蟲模塊。 |
