基于教育網(wǎng)絡(luò)信息主題采集方法
基本信息
申請(qǐng)?zhí)?/td> | CN201811571567.9 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN109670099A | 公開(公告)日 | 2019-04-23 |
申請(qǐng)公布號(hào) | CN109670099A | 申請(qǐng)公布日 | 2019-04-23 |
分類號(hào) | G06F16/951(2019.01)I; G06F16/955(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 陳熾昌; 楊帆 | 申請(qǐng)(專利權(quán))人 | 全通教育集團(tuán)(廣東)股份有限公司 |
代理機(jī)構(gòu) | 成都玖和知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 全通教育集團(tuán)(廣東)股份有限公司 |
地址 | 528403 廣東省中山市東區(qū)中山四路88號(hào)尚峰金融商務(wù)中心5座18層之一 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種能夠使采集到大量URL地址以及網(wǎng)頁文本信息均與主題相關(guān)性較高,同時(shí)提高采集教育網(wǎng)絡(luò)信息主題準(zhǔn)確性的基于教育網(wǎng)絡(luò)信息主題的采集方法。該基于教育網(wǎng)絡(luò)信息主題的采集方法包括步驟采集網(wǎng)絡(luò)頁面,對(duì)頁面進(jìn)行分析下載,對(duì)頁面信息進(jìn)行提取,去除無關(guān)頁面和無關(guān)URL,然后對(duì)頁面和URL進(jìn)行去重,將去重后網(wǎng)頁保存到教育信息庫,并且提取去重后的頁面的URL,將該URL放入到采集到的URL序列中,然后供給個(gè)采集器,對(duì)網(wǎng)頁進(jìn)行重新采集。采用該基于教育網(wǎng)絡(luò)信息主題的采集方法能夠提高采集效率,提高教育網(wǎng)絡(luò)信息主題采集有效性。 |
