一種微博信息抓取方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201310334840.7 申請(qǐng)日 -
公開(公告)號(hào) CN103366017B 公開(公告)日 2016-11-23
申請(qǐng)公布號(hào) CN103366017B 申請(qǐng)公布日 2016-11-23
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張愛琦;崔世起;楊青 申請(qǐng)(專利權(quán))人 人民搜索網(wǎng)絡(luò)股份公司
代理機(jī)構(gòu) 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 代理人 王寶筠
地址 100026 北京市朝陽區(qū)金臺(tái)西路2號(hào)[4-1]15幢3層370室
法律狀態(tài) -

摘要

摘要 一種微博信息抓取方法及裝置,所述方法包括:獲取用戶發(fā)布的歷史微博,并根據(jù)所述歷史微博的發(fā)布時(shí)間建立所述歷史微博與預(yù)設(shè)時(shí)間點(diǎn)間的映射關(guān)系,所述預(yù)設(shè)時(shí)間點(diǎn)通過預(yù)設(shè)步長(zhǎng)選?。粚⒂成錃v史微博數(shù)的偏差在預(yù)設(shè)范圍內(nèi)的至少兩個(gè)相鄰預(yù)設(shè)時(shí)間點(diǎn)合并為一個(gè)時(shí)間段;根據(jù)每個(gè)時(shí)間段的時(shí)間長(zhǎng)度及其映射的每條歷史微博的權(quán)重確定每個(gè)時(shí)間段的抓取周期;根據(jù)每個(gè)時(shí)間段的抓取周期以及抓取初始時(shí)間點(diǎn)預(yù)測(cè)用戶再次發(fā)布微博的時(shí)間點(diǎn),并在該預(yù)測(cè)時(shí)間點(diǎn)上進(jìn)行微博信息抓取。如此,就可避免空閑期進(jìn)行信息抓取導(dǎo)致的資源浪費(fèi),同時(shí)還能保證繁忙期有足夠的抓取資源,通過這種變周期的抓取方式就提高了微博信息的抓取效率。