一種面向多條序列的基因序列數(shù)據(jù)壓縮方法

基本信息

申請?zhí)?/td> CN201910197033.2 申請日 -
公開(公告)號 CN109979537B 公開(公告)日 2020-12-18
申請公布號 CN109979537B 申請公布日 2020-12-18
分類號 G16B30/00;G16B40/00 分類 物理
發(fā)明人 季一木;李可;堯海昌;劉尚東;王汝傳 申請(專利權(quán))人 江蘇航天龍夢信息技術(shù)有限公司
代理機(jī)構(gòu) 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 代理人 南京郵電大學(xué);江蘇航天龍夢信息技術(shù)有限公司
地址 210023 江蘇省南京市新模范馬路66號
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種面向多條序列的基因序列數(shù)據(jù)壓縮方法,主要用于解決基因數(shù)據(jù)量過大,減小基因數(shù)據(jù)存儲和傳輸成本問題。首先從待壓縮基因序列中選取參考序列,其次,將非參考序列和參考序列采用不同的壓縮方式進(jìn)行壓縮。對于非參考序列,通過與參考序列異或,然后進(jìn)行矩陣劃分和矩陣編碼,最終將基因序列編碼成二元組形式進(jìn)行存儲;對于參考序列,采用k?mer算法進(jìn)行單獨(dú)壓縮。采用本壓縮方法的壓縮比高,壓縮速度快,而且二元組編碼與基因次序無關(guān),有利于分布式存儲和分析基因序列。