一種網(wǎng)絡(luò)語(yǔ)義收集分析及內(nèi)容概括分析系統(tǒng)及方法

基本信息

申請(qǐng)?zhí)?/td> CN201810690296.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110727794A 公開(kāi)(公告)日 2020-01-24
申請(qǐng)公布號(hào) CN110727794A 申請(qǐng)公布日 2020-01-24
分類號(hào) G06F16/35;G06F40/216;G06F40/289 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王建崗;鄭一源;蔡小邦 申請(qǐng)(專利權(quán))人 上海傳漾數(shù)字科技有限公司
代理機(jī)構(gòu) 上海宏京知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 鄧文武
地址 200433 上海市楊浦區(qū)黃興路2005弄2號(hào)1316室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種網(wǎng)絡(luò)語(yǔ)義收集分析及內(nèi)容概括分析系統(tǒng)及方法,系統(tǒng)包括流媒體收集模塊、流媒體處理引擎模塊、儲(chǔ)存引擎模塊;所述流媒體收集模塊用于獲取相關(guān)日志,并將日志經(jīng)過(guò)日志采集、聚合和傳輸系統(tǒng)導(dǎo)入高吞吐量消息系統(tǒng),實(shí)現(xiàn)原始日志的收集聚合;所述流媒體處理引擎模塊用于從高吞吐量消息系統(tǒng)中獲取數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行處理;所述儲(chǔ)存引擎模塊用于對(duì)經(jīng)過(guò)流媒體處理引擎模塊處理后的數(shù)據(jù)進(jìn)行存儲(chǔ)。分析方法依次步驟為:完整文本內(nèi)容的收集聚合;完整文本內(nèi)容的分類及留存;文本語(yǔ)義的歸類;熱點(diǎn)詞語(yǔ)的新增與篩選;文本語(yǔ)義價(jià)值的判斷。本發(fā)明有效解決了現(xiàn)有技術(shù)在概括網(wǎng)頁(yè)內(nèi)容過(guò)于簡(jiǎn)單、無(wú)法區(qū)分正面與負(fù)面詞及無(wú)法記憶性歸類等方面的問(wèn)題。