一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù)
基本信息
申請?zhí)?/td> | CN201710059000.2 | 申請日 | - |
公開(公告)號 | CN107066515A | 公開(公告)日 | 2017-08-18 |
申請公布號 | CN107066515A | 申請公布日 | 2017-08-18 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李宗鵬;黃浩 | 申請(專利權(quán))人 | 武漢萬般上品信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 武漢萬般上品信息技術(shù)有限公司 |
地址 | 430070 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)光谷大道303號光谷芯中心2-07棟201-03室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù);首先設(shè)置一個較小的k近鄰值,逐步搜索k近鄰,從而篩選出符合要求的k近鄰點(diǎn),從而找到一個小范圍的稀有類;然后根據(jù)這個小范圍內(nèi)的稀有類數(shù)據(jù)計算出新的k值和距離閾值,再根據(jù)這個新的k值和距離閾值通過逐步搜索k近鄰的方法來繼續(xù)尋找稀有類,當(dāng)找到的k近鄰數(shù)據(jù)全為已知點(diǎn)時,停止算法的尋找過程,將包含D中所有已知點(diǎn)的集合R作為找到的稀有類;本發(fā)明能夠在已知較少稀有類數(shù)據(jù)樣本的情況下,充分利用已知的信息來找到所有的稀有類數(shù)據(jù),不僅避免了分類方法所需的大量稀有類數(shù)據(jù)來訓(xùn)練,而且避免了聚類方法沒有使用已知信息的缺陷,從而能夠高效準(zhǔn)確地找到所有的稀有類數(shù)據(jù)。 |
