一種基因大數(shù)據(jù)分析與計算平臺
基本信息
申請?zhí)?/td> | CN201910518741.1 | 申請日 | - |
公開(公告)號 | CN112086134A | 公開(公告)日 | 2020-12-15 |
申請公布號 | CN112086134A | 申請公布日 | 2020-12-15 |
分類號 | G16B50/50(2019.01)I | 分類 | 物理 |
發(fā)明人 | 陳墩金;周峻松;徐繼峰;祁建明 | 申請(專利權(quán))人 | 廣州明領(lǐng)基因科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 510610廣東省廣州市天河區(qū)林和東路281號天倫控股大廈17層自編05單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基因大數(shù)據(jù)分析與計算平臺,涉及基因大數(shù)據(jù)分析與計算平臺領(lǐng)域,該平臺由數(shù)據(jù)讀取模塊、數(shù)據(jù)壓縮模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)存儲模塊組成。數(shù)據(jù)讀取模塊用于讀取DNA測序儀得到的FASTQ數(shù)據(jù),并將輸入FASTQ數(shù)據(jù)分割成元數(shù)據(jù)、堿基和質(zhì)量分數(shù)三個數(shù)據(jù)流送入數(shù)據(jù)壓縮模塊;數(shù)據(jù)壓縮模塊將三個數(shù)據(jù)流獨立地壓縮:去除元數(shù)據(jù)流中的重復(fù)片段并使用LZMA算法進行壓縮;對質(zhì)量分數(shù)流使用游程編碼和算術(shù)編碼壓縮;使用匹配工具BWA將短讀與參考基因組比對,提取比對結(jié)果中的堿基流表達信息并使用LZMA算法、游程編碼、算術(shù)編碼進行壓縮;數(shù)據(jù)分析模塊用于將FASTQ數(shù)據(jù)進行短序列比對,提取比對結(jié)果中的SNP突變信息;數(shù)據(jù)存儲模塊采用分布式框架將數(shù)據(jù)放在不同的數(shù)據(jù)節(jié)點中存儲,既保證了數(shù)據(jù)的可靠性,同時增加了數(shù)據(jù)的安全性。該平臺針對DNA序列本身具有的冗余性進行壓縮,減少了壓縮所需的存儲空間。?? |
