一種分布式基因大數(shù)據(jù)存儲平臺

基本信息

申請?zhí)?/td> CN201810024030.4 申請日 -
公開(公告)號 CN110120247A 公開(公告)日 2019-08-13
申請公布號 CN110120247A 申請公布日 2019-08-13
分類號 G16B30/00;G16B50/00;H03M7/30;H03M7/40 分類 物理
發(fā)明人 陳墩金;祁建明;周峻松;徐繼峰 申請(專利權(quán))人 廣州明領(lǐng)基因科技有限公司
代理機構(gòu) - 代理人 -
地址 510610 廣東省廣州市天河區(qū)林和東路281號天倫控股大廈17層自編05單元
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種分布式基因大數(shù)據(jù)存儲平臺,涉及基因大數(shù)據(jù)壓縮平臺領(lǐng)域,該平臺將輸入FASTQ數(shù)據(jù)分割成元數(shù)據(jù)、堿基和質(zhì)量分?jǐn)?shù)三個數(shù)據(jù)流,并根據(jù)它們自身特點分別獨立地壓縮:去除元數(shù)據(jù)流中的重復(fù)片段并使用LZMA算法進行壓縮;對質(zhì)量分?jǐn)?shù)流使用游程編碼和算術(shù)編碼壓縮;使用匹配工具BWA將短讀與參考基因組比對,提取比對結(jié)果中的堿基流表達(dá)信息并使用LZMA算法、游程編碼、算術(shù)編碼進行壓縮;最后采用分布式框架將數(shù)據(jù)放在不同的數(shù)據(jù)節(jié)點中存儲,既保證了數(shù)據(jù)的可靠性,同時增加了數(shù)據(jù)的安全性。該平臺針對DNA序列本身具有的冗余性進行壓縮,減少了壓縮所需的存儲空間。