基于教育網(wǎng)絡(luò)信息主題采集方法

基本信息

申請(qǐng)?zhí)?/td> CN201811571567.9 申請(qǐng)日 -
公開(公告)號(hào) CN109670099A 公開(公告)日 2019-04-23
申請(qǐng)公布號(hào) CN109670099A 申請(qǐng)公布日 2019-04-23
分類號(hào) G06F16/951(2019.01)I; G06F16/955(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳熾昌; 楊帆 申請(qǐng)(專利權(quán))人 全通教育集團(tuán)(廣東)股份有限公司
代理機(jī)構(gòu) 成都玖和知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 全通教育集團(tuán)(廣東)股份有限公司
地址 528403 廣東省中山市東區(qū)中山四路88號(hào)尚峰金融商務(wù)中心5座18層之一
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種能夠使采集到大量URL地址以及網(wǎng)頁文本信息均與主題相關(guān)性較高,同時(shí)提高采集教育網(wǎng)絡(luò)信息主題準(zhǔn)確性的基于教育網(wǎng)絡(luò)信息主題的采集方法。該基于教育網(wǎng)絡(luò)信息主題的采集方法包括步驟采集網(wǎng)絡(luò)頁面,對(duì)頁面進(jìn)行分析下載,對(duì)頁面信息進(jìn)行提取,去除無關(guān)頁面和無關(guān)URL,然后對(duì)頁面和URL進(jìn)行去重,將去重后網(wǎng)頁保存到教育信息庫,并且提取去重后的頁面的URL,將該URL放入到采集到的URL序列中,然后供給個(gè)采集器,對(duì)網(wǎng)頁進(jìn)行重新采集。采用該基于教育網(wǎng)絡(luò)信息主題的采集方法能夠提高采集效率,提高教育網(wǎng)絡(luò)信息主題采集有效性。