一種基于改進(jìn)Apriori算法找出頻繁項(xiàng)集的方法

基本信息

申請?zhí)?/td> CN201911102820.0 申請日 -
公開(公告)號 CN110807053A 公開(公告)日 2020-02-18
申請公布號 CN110807053A 申請公布日 2020-02-18
分類號 G06F16/2458;G06F16/22 分類 計算;推算;計數(shù);
發(fā)明人 徐媛 申請(專利權(quán))人 深圳易嘉恩科技有限公司
代理機(jī)構(gòu) 成都虹橋?qū)@聞?wù)所(普通合伙) 代理人 深圳易嘉恩科技有限公司
地址 518057 廣東省深圳市南山區(qū)粵海街道高新區(qū)南區(qū)科技南12路長虹科技大廈23樓01單元
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,公開了一種基于改進(jìn)Apriori算法找出頻繁項(xiàng)集的方法,用以解決Apriori算法多次掃描數(shù)據(jù)庫導(dǎo)致I/O開銷大、效率低、以及產(chǎn)生大量候選項(xiàng)集增加了復(fù)雜度。本發(fā)明僅掃描數(shù)據(jù)庫一件,掃描之后將數(shù)據(jù)庫映射成布爾矩陣,并對布爾矩陣中的行向量和列向量中1的個數(shù)分別計數(shù),得到布爾矩陣的頻度;通過刪除布爾矩陣列向量頻度小于最小支持度的列,得到各個頻繁項(xiàng)集;通過同時刪除布爾矩陣列向量頻度小于最小支持度的列以及行向量頻度小于頻繁項(xiàng)集維數(shù)k的行,生成新的布爾矩陣,不斷壓縮布爾矩陣,直到下一個頻繁項(xiàng)集為空。本發(fā)明適用于關(guān)聯(lián)規(guī)則獲取頻繁項(xiàng)集。