一種清洗數(shù)據(jù)的方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201510046610.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN105989019B | 公開(kāi)(公告)日 | 2019-08-16 |
申請(qǐng)公布號(hào) | CN105989019B | 申請(qǐng)公布日 | 2019-08-16 |
分類號(hào) | G06F16/955(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 陳家耀; 李長(zhǎng)剛; 馮是聰; 吳明輝 | 申請(qǐng)(專利權(quán))人 | 北京秒針信息咨詢有限公司 |
代理機(jī)構(gòu) | 北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 北京秒針信息咨詢有限公司 |
地址 | 102218 北京市昌平區(qū)東小口鎮(zhèn)中東路398號(hào)1號(hào)樓4層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種清洗數(shù)據(jù)的方法及裝置,該方法包括:獲取預(yù)先收集的用戶上網(wǎng)行為數(shù)據(jù),每條用戶上網(wǎng)行為數(shù)據(jù)包括:用戶的唯一標(biāo)識(shí)、當(dāng)前http請(qǐng)求的request_url字段以及當(dāng)前http請(qǐng)求的referer字段,request_url字段和referer字段的內(nèi)容均為URL;統(tǒng)計(jì)每個(gè)URL在用戶上網(wǎng)行為數(shù)據(jù)的request_url字段中出現(xiàn)次數(shù)的第一數(shù)值,以及在referer字段中出現(xiàn)次數(shù)的第二數(shù)值,計(jì)算第二數(shù)值與第一數(shù)值的比值,得到第一比值;根據(jù)歸屬于同一用戶的用戶上網(wǎng)行為數(shù)據(jù),建立該用戶的行為樹(shù),行為樹(shù)包括多個(gè)葉子節(jié)點(diǎn),葉子節(jié)點(diǎn)對(duì)應(yīng)于request_url字段的一個(gè)URL;判斷各個(gè)葉子節(jié)點(diǎn)的URL對(duì)應(yīng)的第一比值是否小于一預(yù)設(shè)閾值,在小于預(yù)設(shè)閾值時(shí),刪除該用戶的request_url字段為該URL的用戶上網(wǎng)行為數(shù)據(jù)。在本方法中,有效清除了無(wú)用數(shù)據(jù)。 |
