一種用于解讀二代測序結(jié)果所需數(shù)據(jù)的提取方法

基本信息

申請?zhí)?/td> CN202111200370.6 申請日 -
公開(公告)號 CN113643761A 公開(公告)日 2021-11-12
申請公布號 CN113643761A 申請公布日 2021-11-12
分類號 G16B50/30(2019.01)I;G16B50/10(2019.01)I;G16B25/00(2019.01)I;G06F16/22(2019.01)I 分類 物理
發(fā)明人 謝欣;余偉師;梁萌萌;付宏旭;李鵬飛 申請(專利權(quán))人 蘇州賽美科基因科技有限公司
代理機(jī)構(gòu) 北京同輝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 劉洪勛
地址 215000 江蘇省蘇州市工業(yè)園區(qū)星湖街218號5幢生物納米園A4-309、310、311室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種用于解讀二代測序結(jié)果所需數(shù)據(jù)的提取方法,屬于數(shù)據(jù)處理的技術(shù)領(lǐng)域,包括以下步驟:S1:將映射版本標(biāo)簽置于TSV文件的首行,并發(fā)送到推送系統(tǒng)并入列式數(shù)據(jù)庫保存;S2:生成元數(shù)據(jù)來記錄BAM文件的相關(guān)信息,使其能夠與對應(yīng)的TSV文件的注釋信息進(jìn)行匹配,并發(fā)送到推送系統(tǒng)并入關(guān)系型行式數(shù)據(jù)庫保存;S3:錄入受檢者臨床表型信息,并發(fā)送到推送系統(tǒng)并入關(guān)系型行式數(shù)據(jù)庫保存;其中,步驟S1、S2和S3同步完成。本發(fā)明能夠克服現(xiàn)有技術(shù)在提取解讀二代測序結(jié)果所需要的三項(xiàng)數(shù)據(jù)時存在的難以應(yīng)對TSV文件表頭行變化、提取BAM文件需要人工介入和缺少主索引關(guān)聯(lián)同一受檢者的缺陷。