一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù)
基本信息
申請(qǐng)?zhí)?/td> | CN201710059000.2 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN107066515A | 公開(kāi)(公告)日 | 2017-08-18 |
申請(qǐng)公布號(hào) | CN107066515A | 申請(qǐng)公布日 | 2017-08-18 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李宗鵬;黃浩 | 申請(qǐng)(專利權(quán))人 | 武漢萬(wàn)般上品信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 武漢萬(wàn)般上品信息技術(shù)有限公司 |
地址 | 430070 湖北省武漢市東湖新技術(shù)開(kāi)發(fā)區(qū)光谷大道303號(hào)光谷芯中心2-07棟201-03室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種面向大數(shù)據(jù)中稀有類數(shù)據(jù)的快速查詢技術(shù);首先設(shè)置一個(gè)較小的k近鄰值,逐步搜索k近鄰,從而篩選出符合要求的k近鄰點(diǎn),從而找到一個(gè)小范圍的稀有類;然后根據(jù)這個(gè)小范圍內(nèi)的稀有類數(shù)據(jù)計(jì)算出新的k值和距離閾值,再根據(jù)這個(gè)新的k值和距離閾值通過(guò)逐步搜索k近鄰的方法來(lái)繼續(xù)尋找稀有類,當(dāng)找到的k近鄰數(shù)據(jù)全為已知點(diǎn)時(shí),停止算法的尋找過(guò)程,將包含D中所有已知點(diǎn)的集合R作為找到的稀有類;本發(fā)明能夠在已知較少稀有類數(shù)據(jù)樣本的情況下,充分利用已知的信息來(lái)找到所有的稀有類數(shù)據(jù),不僅避免了分類方法所需的大量稀有類數(shù)據(jù)來(lái)訓(xùn)練,而且避免了聚類方法沒(méi)有使用已知信息的缺陷,從而能夠高效準(zhǔn)確地找到所有的稀有類數(shù)據(jù)。 |
