一種索引建立方法及裝置
基本信息
申請?zhí)?/td> | CN201711069369.8 | 申請日 | - |
公開(公告)號 | CN107784110B | 公開(公告)日 | 2020-07-03 |
申請公布號 | CN107784110B | 申請公布日 | 2020-07-03 |
分類號 | G06F16/31 | 分類 | - |
發(fā)明人 | 謝永恒;張俠;火一莽;萬月亮 | 申請(專利權(quán))人 | 中國建設(shè)銀行股份有限公司北京中關(guān)村分行 |
代理機(jī)構(gòu) | 北京品源專利代理有限公司 | 代理人 | 北京銳安科技有限公司 |
地址 | 100044 北京市海淀區(qū)西小口路66號中關(guān)村東升科技園北領(lǐng)地B-2號樓七層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實(shí)施例公開了一種索引建立方法及裝置,所述方法包括:提取目標(biāo)文本的特征詞;對所述特征詞進(jìn)行排序得到特征字符串;對所述特征字符串應(yīng)用MinHash算法,得到所述目標(biāo)文本對應(yīng)的哈希值;查找映射緩存池中是否存在與所述哈希值匹配的索引映射桶,若存在,則在所述索引映射桶中建立所述哈希值與所述目標(biāo)文本之間的索引;若所述映射緩存池中不存在與所述哈希值匹配的索引映射桶,建立與所述哈希值匹配的索引映射桶,并建立所述哈希值與所述目標(biāo)文本之間的索引。本發(fā)明實(shí)施例提供的索引建立方法減少了索引存儲量,通過將相似文本的索引建立在同一個(gè)索引映射桶中,實(shí)現(xiàn)了相似文本的分類,提高了相似文本的檢索速度。 |
