一種完整采集網(wǎng)頁信息的方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN201310102584.9 | 申請日 | - |
公開(公告)號 | CN103186670B | 公開(公告)日 | 2016-04-13 |
申請公布號 | CN103186670B | 申請公布日 | 2016-04-13 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 全小飛;柳香 | 申請(專利權(quán))人 | 北京中金云網(wǎng)科技有限公司 |
代理機構(gòu) | 北京三聚陽光知識產(chǎn)權(quán)代理有限公司 | 代理人 | 寇海俠 |
地址 | 100176 北京市大興區(qū)北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)博興八路1號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種完整采集網(wǎng)頁信息的方法和系統(tǒng),包括如下步驟:①在安裝有FireBug以及Cookies?Manager的瀏覽器中模擬用戶瀏覽瀏覽器的行為并保存Cookies信息、所有URL請求及服務(wù)器返回的第一響應(yīng)結(jié)果;②后臺運行的瀏覽器模擬用戶瀏覽瀏覽器的行為并保存第二響應(yīng)結(jié)果;③將第一響應(yīng)結(jié)果中存在的第二響應(yīng)結(jié)果沒有的網(wǎng)頁信息補充到第二響應(yīng)結(jié)果中;④后臺運行的瀏覽器根據(jù)補充后的第二響應(yīng)結(jié)果進(jìn)行網(wǎng)頁信息的采集,并保存。本發(fā)明所述的完整采集網(wǎng)頁信息的方法和系統(tǒng),后臺運行的瀏覽器根據(jù)補充后的第二響應(yīng)結(jié)果可完成所有網(wǎng)頁信息的采集,且不占用瀏覽器的資源,從而解決了現(xiàn)有技術(shù)中動態(tài)網(wǎng)頁采集方法無法獲取AJAX動態(tài)生成的鏈接頁面的問題。 |
