一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202010028465.3 申請日 -
公開(公告)號 CN111259220B 公開(公告)日 2021-03-02
申請公布號 CN111259220B 申請公布日 2021-03-02
分類號 G06F16/951(2019.01)I;G06F16/955(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 羅水芳;邵州華;樓未吉 申請(專利權(quán))人 杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司
代理機構(gòu) 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 陳遠洋
地址 310000浙江省杭州市江干區(qū)紅普路788號創(chuàng)智綠谷發(fā)展中心6號樓1202室
法律狀態(tài) -

摘要

摘要 本發(fā)明給出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng),包括利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取URL對應(yīng)的網(wǎng)頁;基于PageRank算法與HITS算法分別計算網(wǎng)頁的評分,獲得網(wǎng)頁的總價值分并按總價值分排序;按網(wǎng)頁的總價值分的優(yōu)先級解析并獲取網(wǎng)頁中的圖片和/或文字,獲取網(wǎng)頁中包含的關(guān)鍵詞;計算關(guān)鍵詞與關(guān)鍵詞對應(yīng)的網(wǎng)頁的相關(guān)度,并基于相關(guān)度向共識節(jié)點發(fā)送共識請求,響應(yīng)于相關(guān)度大于預(yù)設(shè)的第二閾值且共識程度大于預(yù)設(shè)的第三閾值,將關(guān)鍵詞存儲至對應(yīng)類別的區(qū)塊鏈中,網(wǎng)頁存儲至設(shè)置于區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立網(wǎng)頁與關(guān)鍵詞映射關(guān)系。利用該方法建立關(guān)鍵詞與網(wǎng)頁的映射,采集到的數(shù)據(jù)更加的精準且更加具有關(guān)聯(lián)性和共識性。??