基于分布式架構的可視化主題網頁內容爬取系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201811041524.X 申請日 -
公開(公告)號 CN109284430A 公開(公告)日 2019-01-29
申請公布號 CN109284430A 申請公布日 2019-01-29
分類號 G06F16/951 分類 計算;推算;計數;
發(fā)明人 王科 申請(專利權)人 杭州艾塔科技有限公司
代理機構 - 代理人 -
地址 310052 浙江省杭州市濱江區(qū)長河街道越達巷79號2幢6層609室
法律狀態(tài) -

摘要

摘要 本發(fā)明主要公開了基于分布式架構的可視化主題網頁內容爬取系統(tǒng)及方法,其技術方案:包括包括三大子系統(tǒng),分別為可視化子系統(tǒng)、爬取子系統(tǒng)以及分布式存儲索引子系統(tǒng);網頁內容爬取方法通過任務初始化提交,任務生成,任務調度,任務執(zhí)行,任務狀態(tài)跟蹤五大步驟進行,本發(fā)明能夠高效并發(fā)支持網頁內容請求,爬取各種主題網站,解析頁面源代碼后把非結構化數據變成結構化數據存放在分布式存儲系統(tǒng)上索引,可以有效支撐后續(xù)大規(guī)模結構化數據的分析和挖掘,同時本發(fā)明在提高數據采集效率情況下能大大降低海量網頁采集的軟硬件成本。