一種面向多條序列的基因序列數(shù)據(jù)壓縮方法

基本信息

申請(qǐng)?zhí)?/td> CN201910197033.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109979537B 公開(kāi)(公告)日 2020-12-18
申請(qǐng)公布號(hào) CN109979537B 申請(qǐng)公布日 2020-12-18
分類(lèi)號(hào) G16B30/00;G16B40/00 分類(lèi) 物理
發(fā)明人 季一木;李可;堯海昌;劉尚東;王汝傳 申請(qǐng)(專(zhuān)利權(quán))人 江蘇航天龍夢(mèng)信息技術(shù)有限公司
代理機(jī)構(gòu) 南京瑞弘專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 代理人 南京郵電大學(xué);江蘇航天龍夢(mèng)信息技術(shù)有限公司
地址 210023 江蘇省南京市新模范馬路66號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種面向多條序列的基因序列數(shù)據(jù)壓縮方法,主要用于解決基因數(shù)據(jù)量過(guò)大,減小基因數(shù)據(jù)存儲(chǔ)和傳輸成本問(wèn)題。首先從待壓縮基因序列中選取參考序列,其次,將非參考序列和參考序列采用不同的壓縮方式進(jìn)行壓縮。對(duì)于非參考序列,通過(guò)與參考序列異或,然后進(jìn)行矩陣劃分和矩陣編碼,最終將基因序列編碼成二元組形式進(jìn)行存儲(chǔ);對(duì)于參考序列,采用k?mer算法進(jìn)行單獨(dú)壓縮。采用本壓縮方法的壓縮比高,壓縮速度快,而且二元組編碼與基因次序無(wú)關(guān),有利于分布式存儲(chǔ)和分析基因序列。