一種基于網(wǎng)絡(luò)爬蟲(chóng)與結(jié)構(gòu)化存儲(chǔ)的數(shù)據(jù)處理方法
基本信息
申請(qǐng)?zhí)?/td> | CN201610361299.2 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106055618B | 公開(kāi)(公告)日 | 2020-02-07 |
申請(qǐng)公布號(hào) | CN106055618B | 申請(qǐng)公布日 | 2020-02-07 |
分類(lèi)號(hào) | G06F16/951 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄭文毅;謝曉勇;黃俊 | 申請(qǐng)(專(zhuān)利權(quán))人 | 優(yōu)品財(cái)富管理股份有限公司 |
代理機(jī)構(gòu) | 北京卓唐知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 優(yōu)品財(cái)富管理有限公司 |
地址 | 430000 湖北省武漢市東湖高新區(qū)光谷大道77號(hào)光谷金融港泰康大樓17層優(yōu)品財(cái)富 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于網(wǎng)絡(luò)爬蟲(chóng)與結(jié)構(gòu)化存儲(chǔ)的數(shù)據(jù)處理方法,屬于計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域。本發(fā)明包括如下步驟:步驟一:確定數(shù)據(jù)源并配置網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng);步驟二:根據(jù)數(shù)據(jù)源特征以及預(yù)設(shè)的元數(shù)據(jù)結(jié)構(gòu),對(duì)數(shù)據(jù)處理界面進(jìn)行配置;步驟三:針對(duì)網(wǎng)頁(yè)爬蟲(chóng)獲取的數(shù)據(jù)與文件進(jìn)行篩選排重;步驟四:依據(jù)索引把數(shù)據(jù)與文件的調(diào)取到不同的數(shù)據(jù)維護(hù)界面。本發(fā)明不需要大量人員去跟蹤各個(gè)數(shù)據(jù)來(lái)源,也減少了數(shù)據(jù)來(lái)源比對(duì),排重的工作量,有效的提高了獲取數(shù)據(jù)的效率。在數(shù)據(jù)存儲(chǔ)過(guò)程中,采用了結(jié)構(gòu)化的處理方式,對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,數(shù)據(jù)進(jìn)入數(shù)據(jù)庫(kù)前會(huì)經(jīng)過(guò)正確的邏輯校驗(yàn),保證了數(shù)據(jù)的準(zhǔn)確性和完整性。網(wǎng)絡(luò)爬蟲(chóng)模塊。 |
