一種針對(duì)指定專家的信息爬取系統(tǒng)及方法
基本信息
申請(qǐng)?zhí)?/td> | CN201911008059.4 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN110781368A | 公開(kāi)(公告)日 | 2020-02-11 |
申請(qǐng)公布號(hào) | CN110781368A | 申請(qǐng)公布日 | 2020-02-11 |
分類號(hào) | G06F16/951 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 智強(qiáng);霍東云;李燕茜;張永鋒;李振華 | 申請(qǐng)(專利權(quán))人 | 北京賽時(shí)科技有限公司 |
代理機(jī)構(gòu) | 北京知匯林知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 北京賽時(shí)科技有限公司;清華大學(xué);浙江賽時(shí)科技有限責(zé)任公司 |
地址 | 100085 北京市海淀區(qū)逸成東苑5號(hào)樓3單元5層504室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)技術(shù)領(lǐng)域,尤其為一種針對(duì)指定專家的信息爬取系統(tǒng)及方法,包括用戶交互模塊、候選列表爬取模塊、專家信息爬取模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)結(jié)構(gòu)化模塊和專家畫(huà)像模塊,本發(fā)明通過(guò)設(shè)計(jì)解決現(xiàn)有的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)中,將網(wǎng)絡(luò)上的專家數(shù)據(jù)集中爬取后存在數(shù)據(jù)庫(kù)和云端中,但是這種方法需要占用較多的存儲(chǔ)空間和服務(wù)器資源,也需要在數(shù)據(jù)的全面性和維護(hù)成本之間進(jìn)行取舍,從而能準(zhǔn)確的返回用戶指定的專家信息,無(wú)需在搜索引擎中進(jìn)行搜索和確認(rèn),節(jié)省了用戶的時(shí)間成本,能整合多個(gè)數(shù)據(jù)源的專家數(shù)據(jù),避免了在單一數(shù)據(jù)源中搜索不到對(duì)應(yīng)專家的問(wèn)題同時(shí)將大量專家數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)和云端的方式,能夠節(jié)省大量的數(shù)據(jù)庫(kù)空間和維護(hù)成本。 |
