一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN202010028465.3 | 申請日 | - |
公開(公告)號 | CN111259220B | 公開(公告)日 | 2021-03-02 |
申請公布號 | CN111259220B | 申請公布日 | 2021-03-02 |
分類號 | G06F16/951(2019.01)I;G06F16/955(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 羅水芳;邵州華;樓未吉 | 申請(專利權(quán))人 | 杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司 |
代理機構(gòu) | 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 陳遠洋 |
地址 | 310000浙江省杭州市江干區(qū)紅普路788號創(chuàng)智綠谷發(fā)展中心6號樓1202室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明給出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng),包括利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取URL對應(yīng)的網(wǎng)頁;基于PageRank算法與HITS算法分別計算網(wǎng)頁的評分,獲得網(wǎng)頁的總價值分并按總價值分排序;按網(wǎng)頁的總價值分的優(yōu)先級解析并獲取網(wǎng)頁中的圖片和/或文字,獲取網(wǎng)頁中包含的關(guān)鍵詞;計算關(guān)鍵詞與關(guān)鍵詞對應(yīng)的網(wǎng)頁的相關(guān)度,并基于相關(guān)度向共識節(jié)點發(fā)送共識請求,響應(yīng)于相關(guān)度大于預(yù)設(shè)的第二閾值且共識程度大于預(yù)設(shè)的第三閾值,將關(guān)鍵詞存儲至對應(yīng)類別的區(qū)塊鏈中,網(wǎng)頁存儲至設(shè)置于區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立網(wǎng)頁與關(guān)鍵詞映射關(guān)系。利用該方法建立關(guān)鍵詞與網(wǎng)頁的映射,采集到的數(shù)據(jù)更加的精準且更加具有關(guān)聯(lián)性和共識性。?? |
