一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202010028465.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111259220B 公開(kāi)(公告)日 2021-03-02
申請(qǐng)公布號(hào) CN111259220B 申請(qǐng)公布日 2021-03-02
分類號(hào) G06F16/951(2019.01)I;G06F16/955(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 羅水芳;邵州華;樓未吉 申請(qǐng)(專利權(quán))人 杭州拾貝知識(shí)產(chǎn)權(quán)服務(wù)有限公司
代理機(jī)構(gòu) 廈門(mén)福貝知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 陳遠(yuǎn)洋
地址 310000浙江省杭州市江干區(qū)紅普路788號(hào)創(chuàng)智綠谷發(fā)展中心6號(hào)樓1202室
法律狀態(tài) -

摘要

摘要 本發(fā)明給出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng),包括利用網(wǎng)絡(luò)爬蟲(chóng)抓取待采集的數(shù)據(jù)源的URL集合,獲取URL對(duì)應(yīng)的網(wǎng)頁(yè);基于PageRank算法與HITS算法分別計(jì)算網(wǎng)頁(yè)的評(píng)分,獲得網(wǎng)頁(yè)的總價(jià)值分并按總價(jià)值分排序;按網(wǎng)頁(yè)的總價(jià)值分的優(yōu)先級(jí)解析并獲取網(wǎng)頁(yè)中的圖片和/或文字,獲取網(wǎng)頁(yè)中包含的關(guān)鍵詞;計(jì)算關(guān)鍵詞與關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)的相關(guān)度,并基于相關(guān)度向共識(shí)節(jié)點(diǎn)發(fā)送共識(shí)請(qǐng)求,響應(yīng)于相關(guān)度大于預(yù)設(shè)的第二閾值且共識(shí)程度大于預(yù)設(shè)的第三閾值,將關(guān)鍵詞存儲(chǔ)至對(duì)應(yīng)類別的區(qū)塊鏈中,網(wǎng)頁(yè)存儲(chǔ)至設(shè)置于區(qū)塊鏈的節(jié)點(diǎn)上的數(shù)據(jù)庫(kù)中,并建立網(wǎng)頁(yè)與關(guān)鍵詞映射關(guān)系。利用該方法建立關(guān)鍵詞與網(wǎng)頁(yè)的映射,采集到的數(shù)據(jù)更加的精準(zhǔn)且更加具有關(guān)聯(lián)性和共識(shí)性。??