基于教育信息主題的并行化數(shù)據(jù)跟蹤方法
基本信息
申請?zhí)?/td> | CN201811571552.2 | 申請日 | - |
公開(公告)號 | CN109635182A | 公開(公告)日 | 2019-04-16 |
申請公布號 | CN109635182A | 申請公布日 | 2019-04-16 |
分類號 | G06F16/951(2019.01)I; G06F16/955(2019.01)I; G06F9/50(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳熾昌; 楊帆 | 申請(專利權)人 | 全通教育集團(廣東)股份有限公司 |
代理機構 | 成都玖和知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 全通教育集團(廣東)股份有限公司 |
地址 | 528403 廣東省中山市東區(qū)中山四路88號尚峰金融商務中心5座18層之一 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種能夠同時對多個教育信息主題進行采集,提高采集效率,同時可以對采集到的網(wǎng)頁信息更新實現(xiàn)跟蹤的基于教育信息主題的并行化數(shù)據(jù)跟蹤方法。該基于教育信息主題的并行化數(shù)據(jù)跟蹤方法包括步驟:在Web網(wǎng)頁與Spider采集數(shù)據(jù)庫之間構建多個并行采集線程;并行化采集網(wǎng)絡頁面,對頁面進行分析下載,對網(wǎng)絡頁面信息進行提取,去除與所有教育主題無關頁面和無關URL,然后對頁面和URL進行去重,將去重后網(wǎng)頁保存到教育信息庫,并且提取去重后的頁面的URL,將該URL放入到采集到的URL序列中,然后供給個采集器,對網(wǎng)頁進行重新采集。采用該基于教育信息主題的并行化數(shù)據(jù)跟蹤方法能夠有效的提高采集效率,能夠提高主題信息采集的準確性和有效性。 |
