一種基于自然語言特征提取有效告警數(shù)據(jù)的方法

基本信息

申請?zhí)?/td> CN201911095317.7 申請日 -
公開(公告)號 CN112784592A 公開(公告)日 2021-05-11
申請公布號 CN112784592A 申請公布日 2021-05-11
分類號 G06F40/284;G06F16/35 分類 計算;推算;計數(shù);
發(fā)明人 何毅鵬;葛艷芳 申請(專利權(quán))人 四川睿象科技有限公司
代理機構(gòu) - 代理人 -
地址 610000 四川省成都市中國(四川)自由貿(mào)易試驗區(qū)成都高新區(qū)吉泰五路88號3棟29層11號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于自然語言特征提取有效告警數(shù)據(jù)的方法,包括局部敏感hash模塊和編輯距離算法模塊,所述局部敏感hash算法模塊包括分詞模塊,hash模塊,加權(quán)模塊,合并模塊,降維模塊;所述分詞模塊給定一段語句,進行分詞,得到有效的特征向量,然后為每一個特征向量設(shè)置1?5等5個級別的權(quán)重;所述hash模塊通過hash函數(shù)計算各個特征向量的hash值;所述加權(quán)模塊在hash值的基礎(chǔ)上,給所有特征向量進行加權(quán);所述合并模塊將各特征向量的加權(quán)結(jié)果累加,變成只有一個序列串;所述降維模塊用于得到語句的simhash值;所述編輯距離算法模塊將hash值進行相似度聚類。