一種基于語(yǔ)言模型的數(shù)據(jù)壓縮方法
基本信息
申請(qǐng)?zhí)?/td> | CN201811479097.3 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN109412604A | 公開(kāi)(公告)日 | 2019-03-01 |
申請(qǐng)公布號(hào) | CN109412604A | 申請(qǐng)公布日 | 2019-03-01 |
分類(lèi)號(hào) | H03M7/40;H03M7/30 | 分類(lèi) | 基本電子電路; |
發(fā)明人 | 張文斌;劉洋 | 申請(qǐng)(專(zhuān)利權(quán))人 | 云孚科技(北京)有限公司 |
代理機(jī)構(gòu) | 北京世譽(yù)鑫誠(chéng)專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 孫國(guó)棟 |
地址 | 100085 北京市海淀區(qū)上地信息路2號(hào)(北京實(shí)創(chuàng)高科技發(fā)展總公司2-2號(hào)D棟1-8層)一層D100-0705室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)的基于語(yǔ)言模型的數(shù)據(jù)壓縮方法,涉及數(shù)據(jù)壓縮技術(shù)領(lǐng)域,通過(guò)判斷當(dāng)前需要壓縮的詞是否在預(yù)設(shè)的詞表中,若是,則利用語(yǔ)言模型,輸出詞在詞表中的分布概率,重復(fù)上述步驟,得到所有需要壓縮的詞的分布概率,將分布概率依據(jù)從大到小的順序依次排列,生成各個(gè)詞分布概率的排序列表,根據(jù)當(dāng)前需要壓縮的各個(gè)詞在排序列表中的位置,得到詞的位置序號(hào),根據(jù)位置序號(hào),利用哈夫曼樹(shù)對(duì)位置序號(hào)進(jìn)行編碼,生成數(shù)字編碼,利用基于文檔頻率特征的壓縮算法,對(duì)數(shù)字編碼進(jìn)行壓縮,有效地減少了數(shù)據(jù)所占用的存儲(chǔ)空間,提高了對(duì)數(shù)據(jù)的壓縮效果。 |
