網(wǎng)頁數(shù)據(jù)分析處理方法及裝置

基本信息

申請?zhí)?/td> CN201811084330.8 申請日 -
公開(公告)號 CN109408745A 公開(公告)日 2019-03-01
申請公布號 CN109408745A 申請公布日 2019-03-01
分類號 G06F16/955 分類 計算;推算;計數(shù);
發(fā)明人 曹嚴清;王慧生 申請(專利權)人 國美供應鏈科技有限公司
代理機構 北京市盈科律師事務所 代理人 張晶
地址 100041 北京市石景山區(qū)實興大街30號院5號樓3層15號
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例公開一種網(wǎng)頁數(shù)據(jù)分析處理方法及裝置,該方法包括:獲取目標網(wǎng)頁的URL數(shù)據(jù);將所述URL數(shù)據(jù)進行拆分,得到二元組集合,二元組集合包括由拆分后的元素信息組成的二元組的集合,其中,一組元素信息對應一個二元組,二元組包括元素和所述元素的位置信息;根據(jù)二元組對應的元素出現(xiàn)的頻率信息對URL數(shù)據(jù)進行壓縮處理,得到URL的pattern模式。該方法可以將各種Web應用訪問數(shù)據(jù)中的大量URL數(shù)據(jù),壓縮成少量的pattern模式,保留必要的字符信息,通過壓縮后少量的pattern模式展現(xiàn),大大減小了數(shù)據(jù)處理量和計算量,且利用處理后的pattern模式的數(shù)據(jù)能夠直接進行人為觀測與安全分析。