一種支持SQL查詢(xún)的無(wú)損壓縮查詢(xún)方法

基本信息

申請(qǐng)?zhí)?/td> CN202011362702.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112506876B 公開(kāi)(公告)日 2022-05-13
申請(qǐng)公布號(hào) CN112506876B 申請(qǐng)公布日 2022-05-13
分類(lèi)號(hào) G06F16/174(2019.01)I;G06F16/2455(2019.01)I;G06F16/31(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳剛;龐志飛;魯鵬;伍賽;姚暢;趙岑炯 申請(qǐng)(專(zhuān)利權(quán))人 浙江大學(xué)計(jì)算機(jī)創(chuàng)新技術(shù)研究院
代理機(jī)構(gòu) 杭州求是專(zhuān)利事務(wù)所有限公司 代理人 -
地址 311215浙江省杭州市蕭山區(qū)寧圍街道市心北路857號(hào)383室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種支持SQL查詢(xún)的無(wú)損壓縮查詢(xún)方法。本發(fā)明將文本數(shù)據(jù)根據(jù)預(yù)設(shè)的分隔符進(jìn)行分割,分割后的文本數(shù)據(jù)形成序列集合,利用基于n?gram(n元語(yǔ)法)的上下文概率模型估計(jì)序列集合中各個(gè)序列的每個(gè)字符的潛在概率分布,獲得每個(gè)字符的潛在概率分布后對(duì)序列集合中各個(gè)序列進(jìn)行壓縮,壓縮后的序列通過(guò)線性掃描的不解壓順序進(jìn)行多種方式的查詢(xún)。本發(fā)明在保證概率分布的準(zhǔn)確性以更好地適應(yīng)數(shù)據(jù)分布的變化,并且能夠確保編碼后的數(shù)據(jù)支持不解壓的查詢(xún),提高了查詢(xún)的效率。