一種面向多條序列的基因序列數(shù)據(jù)壓縮方法
基本信息
申請?zhí)?/td> | CN201910197033.2 | 申請日 | - |
公開(公告)號 | CN109979537B | 公開(公告)日 | 2020-12-18 |
申請公布號 | CN109979537B | 申請公布日 | 2020-12-18 |
分類號 | G16B30/00;G16B40/00 | 分類 | 物理 |
發(fā)明人 | 季一木;李可;堯海昌;劉尚東;王汝傳 | 申請(專利權(quán))人 | 江蘇航天龍夢信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) | 代理人 | 南京郵電大學(xué);江蘇航天龍夢信息技術(shù)有限公司 |
地址 | 210023 江蘇省南京市新模范馬路66號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出一種面向多條序列的基因序列數(shù)據(jù)壓縮方法,主要用于解決基因數(shù)據(jù)量過大,減小基因數(shù)據(jù)存儲和傳輸成本問題。首先從待壓縮基因序列中選取參考序列,其次,將非參考序列和參考序列采用不同的壓縮方式進(jìn)行壓縮。對于非參考序列,通過與參考序列異或,然后進(jìn)行矩陣劃分和矩陣編碼,最終將基因序列編碼成二元組形式進(jìn)行存儲;對于參考序列,采用k?mer算法進(jìn)行單獨(dú)壓縮。采用本壓縮方法的壓縮比高,壓縮速度快,而且二元組編碼與基因次序無關(guān),有利于分布式存儲和分析基因序列。 |
