一種微博信息抓取方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201310334840.7 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN103366017B | 公開(公告)日 | 2016-11-23 |
申請(qǐng)公布號(hào) | CN103366017B | 申請(qǐng)公布日 | 2016-11-23 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張愛琦;崔世起;楊青 | 申請(qǐng)(專利權(quán))人 | 人民搜索網(wǎng)絡(luò)股份公司 |
代理機(jī)構(gòu) | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王寶筠 |
地址 | 100026 北京市朝陽區(qū)金臺(tái)西路2號(hào)[4-1]15幢3層370室 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種微博信息抓取方法及裝置,所述方法包括:獲取用戶發(fā)布的歷史微博,并根據(jù)所述歷史微博的發(fā)布時(shí)間建立所述歷史微博與預(yù)設(shè)時(shí)間點(diǎn)間的映射關(guān)系,所述預(yù)設(shè)時(shí)間點(diǎn)通過預(yù)設(shè)步長(zhǎng)選?。粚⒂成錃v史微博數(shù)的偏差在預(yù)設(shè)范圍內(nèi)的至少兩個(gè)相鄰預(yù)設(shè)時(shí)間點(diǎn)合并為一個(gè)時(shí)間段;根據(jù)每個(gè)時(shí)間段的時(shí)間長(zhǎng)度及其映射的每條歷史微博的權(quán)重確定每個(gè)時(shí)間段的抓取周期;根據(jù)每個(gè)時(shí)間段的抓取周期以及抓取初始時(shí)間點(diǎn)預(yù)測(cè)用戶再次發(fā)布微博的時(shí)間點(diǎn),并在該預(yù)測(cè)時(shí)間點(diǎn)上進(jìn)行微博信息抓取。如此,就可避免空閑期進(jìn)行信息抓取導(dǎo)致的資源浪費(fèi),同時(shí)還能保證繁忙期有足夠的抓取資源,通過這種變周期的抓取方式就提高了微博信息的抓取效率。 |
