離散數(shù)據(jù)采集分析系統(tǒng)及方法
基本信息
申請?zhí)?/td> | CN201811045808.6 | 申請日 | - |
公開(公告)號 | CN109241432A | 公開(公告)日 | 2019-01-18 |
申請公布號 | CN109241432A | 申請公布日 | 2019-01-18 |
分類號 | G06F16/9535;G06F16/215;G06F16/28;G06F16/248 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 楊率;付樂爽 | 申請(專利權(quán))人 | 云南東巴文信息技術(shù)有限公司 |
代理機構(gòu) | 昆明祥和知識產(chǎn)權(quán)代理有限公司 | 代理人 | 云南東巴文信息技術(shù)有限公司 |
地址 | 650000 云南省昆明市五華區(qū)高新區(qū)新發(fā)村鼎易天城8幢第21層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種離散數(shù)據(jù)采集分析系統(tǒng)及方法,包括:數(shù)據(jù)采集模塊用于實時多維度地采集離散的數(shù)據(jù),數(shù)據(jù)包括網(wǎng)頁媒體文本數(shù)據(jù)、網(wǎng)絡(luò)爬蟲抓取的互聯(lián)網(wǎng)數(shù)據(jù)、Hadoop數(shù)據(jù)、服務(wù)器運行日志數(shù)據(jù)及可以接入其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù);數(shù)據(jù)分析模塊用于對采集到的該些數(shù)據(jù)進(jìn)行數(shù)據(jù)解析和數(shù)據(jù)清洗;數(shù)據(jù)存儲模塊用于通過倒排索引方式存儲經(jīng)數(shù)據(jù)清洗后的數(shù)據(jù),并建立數(shù)據(jù)中分詞與所處文檔之間的映射關(guān)系;數(shù)據(jù)檢索模塊用于對輸入的檢索詞進(jìn)行分析,提取關(guān)鍵詞,并從數(shù)據(jù)存儲模塊中抓取出檢索詞對應(yīng)的目標(biāo)數(shù)據(jù);數(shù)據(jù)可視化模塊用于根據(jù)檢索詞對目標(biāo)數(shù)據(jù)進(jìn)行打分排序,以拓?fù)鋱D展現(xiàn)數(shù)據(jù)相關(guān)性。本發(fā)明數(shù)據(jù)采集渠道多,檢索更高效更精確。 |
