一種數(shù)據(jù)采樣方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201910763259.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110580498A | 公開(公告)日 | 2019-12-17 |
申請(qǐng)公布號(hào) | CN110580498A | 申請(qǐng)公布日 | 2019-12-17 |
分類號(hào) | G06K9/62(2006.01) | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 彭亞楠; 李宗鵬; 黃浩 | 申請(qǐng)(專利權(quán))人 | 武漢萬般上品信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 武漢萬般上品信息技術(shù)有限公司 |
地址 | 430073 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)光谷大道303光谷芯中心2-07棟201-03室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種數(shù)據(jù)采樣方法,首先選取給定數(shù)據(jù)集D的最主要維度,得到新的數(shù)據(jù)集D*;然后在D*的每個(gè)維度上計(jì)算最優(yōu)的直方圖帶寬,根據(jù)最優(yōu)帶寬在各個(gè)維度上使用直方圖密度估計(jì)劃分格子,組成網(wǎng)格,使得網(wǎng)格中包含盡可能多的密度相似、位置相近的數(shù)據(jù)樣本;選取各個(gè)網(wǎng)格中具有最高樣本數(shù)的預(yù)設(shè)比例的非空格,計(jì)算格中數(shù)據(jù)樣本的均值作為初始點(diǎn),運(yùn)行K?均值聚類算法將數(shù)據(jù)集分解為小聚類,并返回各個(gè)聚類的中心的作為最后選取的采樣點(diǎn)。本發(fā)明可以使采樣結(jié)果較好地保持原始數(shù)據(jù)分布形狀信息,從而較好地完成數(shù)據(jù)預(yù)處理工作,改善采樣效果,提高計(jì)算效率。 |
