一種基于語(yǔ)言模型的數(shù)據(jù)壓縮方法

基本信息

申請(qǐng)?zhí)?/td> CN201811479097.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109412604A 公開(kāi)(公告)日 2019-03-01
申請(qǐng)公布號(hào) CN109412604A 申請(qǐng)公布日 2019-03-01
分類(lèi)號(hào) H03M7/40;H03M7/30 分類(lèi) 基本電子電路;
發(fā)明人 張文斌;劉洋 申請(qǐng)(專(zhuān)利權(quán))人 云孚科技(北京)有限公司
代理機(jī)構(gòu) 北京世譽(yù)鑫誠(chéng)專(zhuān)利代理事務(wù)所(普通合伙) 代理人 孫國(guó)棟
地址 100085 北京市海淀區(qū)上地信息路2號(hào)(北京實(shí)創(chuàng)高科技發(fā)展總公司2-2號(hào)D棟1-8層)一層D100-0705室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)的基于語(yǔ)言模型的數(shù)據(jù)壓縮方法,涉及數(shù)據(jù)壓縮技術(shù)領(lǐng)域,通過(guò)判斷當(dāng)前需要壓縮的詞是否在預(yù)設(shè)的詞表中,若是,則利用語(yǔ)言模型,輸出詞在詞表中的分布概率,重復(fù)上述步驟,得到所有需要壓縮的詞的分布概率,將分布概率依據(jù)從大到小的順序依次排列,生成各個(gè)詞分布概率的排序列表,根據(jù)當(dāng)前需要壓縮的各個(gè)詞在排序列表中的位置,得到詞的位置序號(hào),根據(jù)位置序號(hào),利用哈夫曼樹(shù)對(duì)位置序號(hào)進(jìn)行編碼,生成數(shù)字編碼,利用基于文檔頻率特征的壓縮算法,對(duì)數(shù)字編碼進(jìn)行壓縮,有效地減少了數(shù)據(jù)所占用的存儲(chǔ)空間,提高了對(duì)數(shù)據(jù)的壓縮效果。