一種基于局部敏感哈希改進(jìn)算法的相似性數(shù)據(jù)檢索方法

基本信息

申請?zhí)?/td> CN201310664350.3 申請日 -
公開(公告)號 CN104035949A 公開(公告)日 2014-09-10
申請公布號 CN104035949A 申請公布日 2014-09-10
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 馬廷淮;陸穎華;田偉;朱節(jié)中 申請(專利權(quán))人 北京智信未來信息技術(shù)有限公司
代理機(jī)構(gòu) 南京經(jīng)緯專利商標(biāo)代理有限公司 代理人 許方
地址 215101 江蘇省蘇州市吳中區(qū)木瀆鎮(zhèn)中山東路70號吳中科技創(chuàng)業(yè)園2號樓2310室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于局部敏感哈希改進(jìn)算法的相似性數(shù)據(jù)檢索方法,首先對數(shù)據(jù)對象進(jìn)行特征提取,將每一個數(shù)據(jù)對象使用其特征集合表示,基于向量空間模型把每一個數(shù)據(jù)對象轉(zhuǎn)換為特征空間的向量;然后使用一組哈希函數(shù),建立多個哈希表,將所有的數(shù)據(jù)對象映射到相應(yīng)的哈希桶中;接著對于查詢對象,隨機(jī)選擇一個哈希表進(jìn)行映射,對于與查詢對象在同一哈希桶的數(shù)據(jù)對象,以同樣方式利用剩余的哈希表進(jìn)行映射,并將所有與這些對象在同一哈希桶中的對象合并成為查詢候選集;最后將查詢對象與查詢候選集中的數(shù)據(jù)對象進(jìn)行真實距離的計算,從而得到最鄰近對象。本發(fā)明在保持準(zhǔn)確率和召回率的前提下減少了傳統(tǒng)局部敏感哈希的內(nèi)存需求,適合于處理大量的高維數(shù)據(jù)的相似性檢索。