一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù)

基本信息

申請?zhí)?/td> CN201710059000.2 申請日 -
公開(公告)號 CN107066515A 公開(公告)日 2017-08-18
申請公布號 CN107066515A 申請公布日 2017-08-18
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李宗鵬;黃浩 申請(專利權(quán))人 武漢萬般上品信息技術(shù)有限公司
代理機(jī)構(gòu) 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 武漢萬般上品信息技術(shù)有限公司
地址 430070 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)光谷大道303號光谷芯中心2-07棟201-03室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù);首先設(shè)置一個較小的k近鄰值,逐步搜索k近鄰,從而篩選出符合要求的k近鄰點(diǎn),從而找到一個小范圍的稀有類;然后根據(jù)這個小范圍內(nèi)的稀有類數(shù)據(jù)計算出新的k值和距離閾值,再根據(jù)這個新的k值和距離閾值通過逐步搜索k近鄰的方法來繼續(xù)尋找稀有類,當(dāng)找到的k近鄰數(shù)據(jù)全為已知點(diǎn)時,停止算法的尋找過程,將包含D中所有已知點(diǎn)的集合R作為找到的稀有類;本發(fā)明能夠在已知較少稀有類數(shù)據(jù)樣本的情況下,充分利用已知的信息來找到所有的稀有類數(shù)據(jù),不僅避免了分類方法所需的大量稀有類數(shù)據(jù)來訓(xùn)練,而且避免了聚類方法沒有使用已知信息的缺陷,從而能夠高效準(zhǔn)確地找到所有的稀有類數(shù)據(jù)。