一種數(shù)據(jù)采樣方法及裝置

基本信息

申請?zhí)?/td> CN201910763259.4 申請日 -
公開(公告)號 CN110580498A 公開(公告)日 2019-12-17
申請公布號 CN110580498A 申請公布日 2019-12-17
分類號 G06K9/62(2006.01) 分類 計算;推算;計數(shù);
發(fā)明人 彭亞楠; 李宗鵬; 黃浩 申請(專利權)人 武漢萬般上品信息技術有限公司
代理機構 武漢科皓知識產權代理事務所(特殊普通合伙) 代理人 武漢萬般上品信息技術有限公司
地址 430073 湖北省武漢市東湖新技術開發(fā)區(qū)光谷大道303光谷芯中心2-07棟201-03室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種數(shù)據(jù)采樣方法,首先選取給定數(shù)據(jù)集D的最主要維度,得到新的數(shù)據(jù)集D*;然后在D*的每個維度上計算最優(yōu)的直方圖帶寬,根據(jù)最優(yōu)帶寬在各個維度上使用直方圖密度估計劃分格子,組成網格,使得網格中包含盡可能多的密度相似、位置相近的數(shù)據(jù)樣本;選取各個網格中具有最高樣本數(shù)的預設比例的非空格,計算格中數(shù)據(jù)樣本的均值作為初始點,運行K?均值聚類算法將數(shù)據(jù)集分解為小聚類,并返回各個聚類的中心的作為最后選取的采樣點。本發(fā)明可以使采樣結果較好地保持原始數(shù)據(jù)分布形狀信息,從而較好地完成數(shù)據(jù)預處理工作,改善采樣效果,提高計算效率。