一種網(wǎng)絡語義收集分析及內(nèi)容概括分析系統(tǒng)及方法
基本信息
申請?zhí)?/td> | CN201810690296.2 | 申請日 | - |
公開(公告)號 | CN110727794A | 公開(公告)日 | 2020-01-24 |
申請公布號 | CN110727794A | 申請公布日 | 2020-01-24 |
分類號 | G06F16/35;G06F40/216;G06F40/289 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王建崗;鄭一源;蔡小邦 | 申請(專利權)人 | 上海傳漾數(shù)字科技有限公司 |
代理機構 | 上海宏京知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 鄧文武 |
地址 | 200433 上海市楊浦區(qū)黃興路2005弄2號1316室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種網(wǎng)絡語義收集分析及內(nèi)容概括分析系統(tǒng)及方法,系統(tǒng)包括流媒體收集模塊、流媒體處理引擎模塊、儲存引擎模塊;所述流媒體收集模塊用于獲取相關日志,并將日志經(jīng)過日志采集、聚合和傳輸系統(tǒng)導入高吞吐量消息系統(tǒng),實現(xiàn)原始日志的收集聚合;所述流媒體處理引擎模塊用于從高吞吐量消息系統(tǒng)中獲取數(shù)據(jù)并對數(shù)據(jù)進行處理;所述儲存引擎模塊用于對經(jīng)過流媒體處理引擎模塊處理后的數(shù)據(jù)進行存儲。分析方法依次步驟為:完整文本內(nèi)容的收集聚合;完整文本內(nèi)容的分類及留存;文本語義的歸類;熱點詞語的新增與篩選;文本語義價值的判斷。本發(fā)明有效解決了現(xiàn)有技術在概括網(wǎng)頁內(nèi)容過于簡單、無法區(qū)分正面與負面詞及無法記憶性歸類等方面的問題。 |
