一種數(shù)據(jù)采樣方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201910763259.4 申請(qǐng)日 -
公開(公告)號(hào) CN110580498A 公開(公告)日 2019-12-17
申請(qǐng)公布號(hào) CN110580498A 申請(qǐng)公布日 2019-12-17
分類號(hào) G06K9/62(2006.01) 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 彭亞楠; 李宗鵬; 黃浩 申請(qǐng)(專利權(quán))人 武漢萬般上品信息技術(shù)有限公司
代理機(jī)構(gòu) 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 武漢萬般上品信息技術(shù)有限公司
地址 430073 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)光谷大道303光谷芯中心2-07棟201-03室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種數(shù)據(jù)采樣方法,首先選取給定數(shù)據(jù)集D的最主要維度,得到新的數(shù)據(jù)集D*;然后在D*的每個(gè)維度上計(jì)算最優(yōu)的直方圖帶寬,根據(jù)最優(yōu)帶寬在各個(gè)維度上使用直方圖密度估計(jì)劃分格子,組成網(wǎng)格,使得網(wǎng)格中包含盡可能多的密度相似、位置相近的數(shù)據(jù)樣本;選取各個(gè)網(wǎng)格中具有最高樣本數(shù)的預(yù)設(shè)比例的非空格,計(jì)算格中數(shù)據(jù)樣本的均值作為初始點(diǎn),運(yùn)行K?均值聚類算法將數(shù)據(jù)集分解為小聚類,并返回各個(gè)聚類的中心的作為最后選取的采樣點(diǎn)。本發(fā)明可以使采樣結(jié)果較好地保持原始數(shù)據(jù)分布形狀信息,從而較好地完成數(shù)據(jù)預(yù)處理工作,改善采樣效果,提高計(jì)算效率。