一種基于互聯(lián)網(wǎng)金融大數(shù)據(jù)處理方法

基本信息

申請(qǐng)?zhí)?/td> CN201910071436.2 申請(qǐng)日 -
公開(公告)號(hào) CN109948022A 公開(公告)日 2019-06-28
申請(qǐng)公布號(hào) CN109948022A 申請(qǐng)公布日 2019-06-28
分類號(hào) G06F16/951(2019.01)I; G06F16/958(2019.01)I; G06Q40/00(2012.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 劉海峰 申請(qǐng)(專利權(quán))人 華存數(shù)據(jù)信息技術(shù)有限公司
代理機(jī)構(gòu) 北京華仲龍騰專利代理事務(wù)所(普通合伙) 代理人 華存數(shù)據(jù)信息技術(shù)有限公司
地址 200127 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)郭守敬路351號(hào)2號(hào)樓601AE-15室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其為一種基于互聯(lián)網(wǎng)金融大數(shù)據(jù)處理方法,包括以下步驟:S1:分三大步驟:大數(shù)據(jù)的采集、大數(shù)據(jù)的處理、大數(shù)據(jù)的存儲(chǔ),整體系統(tǒng)包含有以下幾個(gè)模塊:1、從Internet上抓取網(wǎng)頁(yè)內(nèi)容,并抽取出需要的屬性內(nèi)容的Web爬蟲模塊;2、對(duì)爬蟲抓取的內(nèi)容進(jìn)行處理的數(shù)據(jù)處理模塊,3、為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)站的URL的爬蟲URL隊(duì)列模塊,4、包含需要抓取數(shù)據(jù)網(wǎng)站的URL信息、爬蟲從網(wǎng)頁(yè)中抽取來(lái)的數(shù)據(jù)以及經(jīng)過(guò)數(shù)據(jù)處理之后的數(shù)據(jù)的數(shù)據(jù)模塊,本發(fā)明對(duì)數(shù)據(jù)采集鏈接過(guò)濾的方法復(fù)雜度較低,能更快的進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)處理過(guò)程中的整合步驟使得匹配效率得到了很大的提升,同時(shí)準(zhǔn)確度也得到了保障。