一種海量DNA測(cè)序數(shù)據(jù)無損快速壓縮平臺(tái)

基本信息

申請(qǐng)?zhí)?/td> CN201810018495.9 申請(qǐng)日 -
公開(公告)號(hào) CN110111852A 公開(公告)日 2019-08-09
申請(qǐng)公布號(hào) CN110111852A 申請(qǐng)公布日 2019-08-09
分類號(hào) G16B50/50;G06F16/907;G06F16/901 分類 物理
發(fā)明人 陳墩金;徐繼峰;周峻松;祁建明 申請(qǐng)(專利權(quán))人 廣州明領(lǐng)基因科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 510610 廣東省廣州市天河區(qū)林和東路281號(hào)天倫控股大廈17層自編05單元
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種海量DNA測(cè)序數(shù)據(jù)無損快速壓縮平臺(tái),涉及DNA測(cè)序數(shù)據(jù)壓縮平臺(tái)領(lǐng)域,該平臺(tái)將輸入FASTQ數(shù)據(jù)分割成元數(shù)據(jù)、堿基和質(zhì)量分?jǐn)?shù)三個(gè)數(shù)據(jù)流,并根據(jù)它們自身特點(diǎn)分別獨(dú)立地壓縮:去除元數(shù)據(jù)流中的重復(fù)片段并使用LZMA算法進(jìn)行壓縮;對(duì)質(zhì)量分?jǐn)?shù)流使用游程編碼和算術(shù)編碼壓縮;使用匹配工具BWA將短讀與參考基因組比對(duì),提取比對(duì)結(jié)果中的堿基流表達(dá)信息并使用LZMA算法、游程編碼、算術(shù)編碼進(jìn)行壓縮。該平臺(tái)針對(duì)DNA序列本身具有的冗余性進(jìn)行壓縮,減少了壓縮所需的存儲(chǔ)空間。