一種針對指定專家的信息爬取系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201911008059.4 申請日 -
公開(公告)號 CN110781368A 公開(公告)日 2020-02-11
申請公布號 CN110781368A 申請公布日 2020-02-11
分類號 G06F16/951 分類 計算;推算;計數(shù);
發(fā)明人 智強;霍東云;李燕茜;張永鋒;李振華 申請(專利權)人 北京賽時科技有限公司
代理機構 北京知匯林知識產(chǎn)權代理事務所(普通合伙) 代理人 北京賽時科技有限公司;清華大學;浙江賽時科技有限責任公司
地址 100085 北京市海淀區(qū)逸成東苑5號樓3單元5層504室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及互聯(lián)網(wǎng)技術技術領域,尤其為一種針對指定專家的信息爬取系統(tǒng)及方法,包括用戶交互模塊、候選列表爬取模塊、專家信息爬取模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)結構化模塊和專家畫像模塊,本發(fā)明通過設計解決現(xiàn)有的網(wǎng)絡爬蟲技術中,將網(wǎng)絡上的專家數(shù)據(jù)集中爬取后存在數(shù)據(jù)庫和云端中,但是這種方法需要占用較多的存儲空間和服務器資源,也需要在數(shù)據(jù)的全面性和維護成本之間進行取舍,從而能準確的返回用戶指定的專家信息,無需在搜索引擎中進行搜索和確認,節(jié)省了用戶的時間成本,能整合多個數(shù)據(jù)源的專家數(shù)據(jù),避免了在單一數(shù)據(jù)源中搜索不到對應專家的問題同時將大量專家數(shù)據(jù)存儲在數(shù)據(jù)庫和云端的方式,能夠節(jié)省大量的數(shù)據(jù)庫空間和維護成本。