一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù)

基本信息

申請(qǐng)?zhí)?/td> CN201710059000.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107066515A 公開(kāi)(公告)日 2017-08-18
申請(qǐng)公布號(hào) CN107066515A 申請(qǐng)公布日 2017-08-18
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李宗鵬;黃浩 申請(qǐng)(專利權(quán))人 武漢萬(wàn)般上品信息技術(shù)有限公司
代理機(jī)構(gòu) 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 武漢萬(wàn)般上品信息技術(shù)有限公司
地址 430070 湖北省武漢市東湖新技術(shù)開(kāi)發(fā)區(qū)光谷大道303號(hào)光谷芯中心2-07棟201-03室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù);首先設(shè)置一個(gè)較小的k近鄰值,逐步搜索k近鄰,從而篩選出符合要求的k近鄰點(diǎn),從而找到一個(gè)小范圍的稀有類;然后根據(jù)這個(gè)小范圍內(nèi)的稀有類數(shù)據(jù)計(jì)算出新的k值和距離閾值,再根據(jù)這個(gè)新的k值和距離閾值通過(guò)逐步搜索k近鄰的方法來(lái)繼續(xù)尋找稀有類,當(dāng)找到的k近鄰數(shù)據(jù)全為已知點(diǎn)時(shí),停止算法的尋找過(guò)程,將包含D中所有已知點(diǎn)的集合R作為找到的稀有類;本發(fā)明能夠在已知較少稀有類數(shù)據(jù)樣本的情況下,充分利用已知的信息來(lái)找到所有的稀有類數(shù)據(jù),不僅避免了分類方法所需的大量稀有類數(shù)據(jù)來(lái)訓(xùn)練,而且避免了聚類方法沒(méi)有使用已知信息的缺陷,從而能夠高效準(zhǔn)確地找到所有的稀有類數(shù)據(jù)。