網(wǎng)頁數(shù)據(jù)分析處理方法及裝置
基本信息
申請?zhí)?/td> | CN201811084330.8 | 申請日 | - |
公開(公告)號 | CN109408745A | 公開(公告)日 | 2019-03-01 |
申請公布號 | CN109408745A | 申請公布日 | 2019-03-01 |
分類號 | G06F16/955 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 曹嚴清;王慧生 | 申請(專利權)人 | 國美供應鏈科技有限公司 |
代理機構 | 北京市盈科律師事務所 | 代理人 | 張晶 |
地址 | 100041 北京市石景山區(qū)實興大街30號院5號樓3層15號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實施例公開一種網(wǎng)頁數(shù)據(jù)分析處理方法及裝置,該方法包括:獲取目標網(wǎng)頁的URL數(shù)據(jù);將所述URL數(shù)據(jù)進行拆分,得到二元組集合,二元組集合包括由拆分后的元素信息組成的二元組的集合,其中,一組元素信息對應一個二元組,二元組包括元素和所述元素的位置信息;根據(jù)二元組對應的元素出現(xiàn)的頻率信息對URL數(shù)據(jù)進行壓縮處理,得到URL的pattern模式。該方法可以將各種Web應用訪問數(shù)據(jù)中的大量URL數(shù)據(jù),壓縮成少量的pattern模式,保留必要的字符信息,通過壓縮后少量的pattern模式展現(xiàn),大大減小了數(shù)據(jù)處理量和計算量,且利用處理后的pattern模式的數(shù)據(jù)能夠直接進行人為觀測與安全分析。 |
