一種網(wǎng)絡語義收集分析及內(nèi)容概括分析系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201810690296.2 申請日 -
公開(公告)號 CN110727794A 公開(公告)日 2020-01-24
申請公布號 CN110727794A 申請公布日 2020-01-24
分類號 G06F16/35;G06F40/216;G06F40/289 分類 計算;推算;計數(shù);
發(fā)明人 王建崗;鄭一源;蔡小邦 申請(專利權)人 上海傳漾數(shù)字科技有限公司
代理機構 上海宏京知識產(chǎn)權代理事務所(普通合伙) 代理人 鄧文武
地址 200433 上海市楊浦區(qū)黃興路2005弄2號1316室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種網(wǎng)絡語義收集分析及內(nèi)容概括分析系統(tǒng)及方法,系統(tǒng)包括流媒體收集模塊、流媒體處理引擎模塊、儲存引擎模塊;所述流媒體收集模塊用于獲取相關日志,并將日志經(jīng)過日志采集、聚合和傳輸系統(tǒng)導入高吞吐量消息系統(tǒng),實現(xiàn)原始日志的收集聚合;所述流媒體處理引擎模塊用于從高吞吐量消息系統(tǒng)中獲取數(shù)據(jù)并對數(shù)據(jù)進行處理;所述儲存引擎模塊用于對經(jīng)過流媒體處理引擎模塊處理后的數(shù)據(jù)進行存儲。分析方法依次步驟為:完整文本內(nèi)容的收集聚合;完整文本內(nèi)容的分類及留存;文本語義的歸類;熱點詞語的新增與篩選;文本語義價值的判斷。本發(fā)明有效解決了現(xiàn)有技術在概括網(wǎng)頁內(nèi)容過于簡單、無法區(qū)分正面與負面詞及無法記憶性歸類等方面的問題。