一種針對指定專家的信息爬取系統(tǒng)及方法
基本信息
申請?zhí)?/td> | CN201911008059.4 | 申請日 | - |
公開(公告)號 | CN110781368A | 公開(公告)日 | 2020-02-11 |
申請公布號 | CN110781368A | 申請公布日 | 2020-02-11 |
分類號 | G06F16/951 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 智強;霍東云;李燕茜;張永鋒;李振華 | 申請(專利權)人 | 北京賽時科技有限公司 |
代理機構 | 北京知匯林知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 北京賽時科技有限公司;清華大學;浙江賽時科技有限責任公司 |
地址 | 100085 北京市海淀區(qū)逸成東苑5號樓3單元5層504室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及互聯(lián)網(wǎng)技術技術領域,尤其為一種針對指定專家的信息爬取系統(tǒng)及方法,包括用戶交互模塊、候選列表爬取模塊、專家信息爬取模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)結構化模塊和專家畫像模塊,本發(fā)明通過設計解決現(xiàn)有的網(wǎng)絡爬蟲技術中,將網(wǎng)絡上的專家數(shù)據(jù)集中爬取后存在數(shù)據(jù)庫和云端中,但是這種方法需要占用較多的存儲空間和服務器資源,也需要在數(shù)據(jù)的全面性和維護成本之間進行取舍,從而能準確的返回用戶指定的專家信息,無需在搜索引擎中進行搜索和確認,節(jié)省了用戶的時間成本,能整合多個數(shù)據(jù)源的專家數(shù)據(jù),避免了在單一數(shù)據(jù)源中搜索不到對應專家的問題同時將大量專家數(shù)據(jù)存儲在數(shù)據(jù)庫和云端的方式,能夠節(jié)省大量的數(shù)據(jù)庫空間和維護成本。 |
