一種清洗數(shù)據(jù)的方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201510046610.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN105989019B 公開(kāi)(公告)日 2019-08-16
申請(qǐng)公布號(hào) CN105989019B 申請(qǐng)公布日 2019-08-16
分類號(hào) G06F16/955(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳家耀; 李長(zhǎng)剛; 馮是聰; 吳明輝 申請(qǐng)(專利權(quán))人 北京秒針信息咨詢有限公司
代理機(jī)構(gòu) 北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 北京秒針信息咨詢有限公司
地址 102218 北京市昌平區(qū)東小口鎮(zhèn)中東路398號(hào)1號(hào)樓4層
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種清洗數(shù)據(jù)的方法及裝置,該方法包括:獲取預(yù)先收集的用戶上網(wǎng)行為數(shù)據(jù),每條用戶上網(wǎng)行為數(shù)據(jù)包括:用戶的唯一標(biāo)識(shí)、當(dāng)前http請(qǐng)求的request_url字段以及當(dāng)前http請(qǐng)求的referer字段,request_url字段和referer字段的內(nèi)容均為URL;統(tǒng)計(jì)每個(gè)URL在用戶上網(wǎng)行為數(shù)據(jù)的request_url字段中出現(xiàn)次數(shù)的第一數(shù)值,以及在referer字段中出現(xiàn)次數(shù)的第二數(shù)值,計(jì)算第二數(shù)值與第一數(shù)值的比值,得到第一比值;根據(jù)歸屬于同一用戶的用戶上網(wǎng)行為數(shù)據(jù),建立該用戶的行為樹(shù),行為樹(shù)包括多個(gè)葉子節(jié)點(diǎn),葉子節(jié)點(diǎn)對(duì)應(yīng)于request_url字段的一個(gè)URL;判斷各個(gè)葉子節(jié)點(diǎn)的URL對(duì)應(yīng)的第一比值是否小于一預(yù)設(shè)閾值,在小于預(yù)設(shè)閾值時(shí),刪除該用戶的request_url字段為該URL的用戶上網(wǎng)行為數(shù)據(jù)。在本方法中,有效清除了無(wú)用數(shù)據(jù)。