一種基于文本相似度的日志聚類分類技術(shù)

基本信息

申請(qǐng)?zhí)?/td> CN201910805959.5 申請(qǐng)日 -
公開(公告)號(hào) CN111274385A 公開(公告)日 2020-06-12
申請(qǐng)公布號(hào) CN111274385A 申請(qǐng)公布日 2020-06-12
分類號(hào) G06F16/35 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 韓韶華;錢凱 申請(qǐng)(專利權(quán))人 無錫暢云網(wǎng)絡(luò)有限公司
代理機(jī)構(gòu) - 代理人 -
地址 214131 江蘇省無錫市高浪東路999-8-B1-501
法律狀態(tài) -

摘要

摘要 本發(fā)明是一種通過分析日志文件結(jié)構(gòu),提純?nèi)罩拘畔?,?jì)算兩條日志間的相似度,最終實(shí)現(xiàn)日志信息聚類分類的技術(shù)。解決了日志文件雜亂無章、只記錄不處理的缺點(diǎn),通過本技術(shù),不僅能將原本混亂的日志信息變得井井有條,壓縮日志量,還能為后續(xù)處理提供策略支持。本發(fā)明自研了兩套處理日志的流程:日志聚類技術(shù)、日志分類技術(shù),創(chuàng)造了兩個(gè)核心算法:基于向量余弦和并集的文本相似度算法、模視窗快速檢索算法。用戶只需要根據(jù)自己的日志結(jié)構(gòu),修改一下提純信息的正則表達(dá)式,就能實(shí)現(xiàn)聚類分類的全自動(dòng)處理。本發(fā)明可并行處理聚類分類任務(wù),處理能力強(qiáng),能滿足大規(guī)模日志分析的需要。本發(fā)明部署簡(jiǎn)單方便,可嵌入到網(wǎng)絡(luò)安全等系統(tǒng)內(nèi),也可以單獨(dú)使用。