尋找樣本的染色體突變位點(diǎn)的分析方法和分析裝置

基本信息

申請?zhí)?/td> CN201610782624.2 申請日 -
公開(公告)號 CN106407749A 公開(公告)日 2017-02-15
申請公布號 CN106407749A 申請公布日 2017-02-15
分類號 G06F19/20(2011.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳晨;于偉文 申請(專利權(quán))人 上海華點(diǎn)云生物科技有限公司
代理機(jī)構(gòu) 北京邦信陽專利商標(biāo)代理有限公司 代理人 上海華點(diǎn)云生物科技有限公司
地址 100025 北京市朝陽區(qū)慈云寺橋住邦2000,4號樓21層
法律狀態(tài) -

摘要

摘要 本發(fā)明的實(shí)施例公開了一種基于高通量測序數(shù)據(jù)尋找樣本的染色體突變位點(diǎn)的分析方法和裝置。所述方法包括:為并行計(jì)算做準(zhǔn)備;通過并行計(jì)算過濾掉無效堿基;根據(jù)保留的堿基確定樣本的染色體突變位點(diǎn)。切分?jǐn)?shù)據(jù);生成執(zhí)行實(shí)體。將文件切分為文件塊;將從文件塊中讀取的數(shù)據(jù)切分為RDD并生成job。堿基不一致時(shí),對此測序序列的每個(gè)堿基計(jì)算堿基比對質(zhì)量值;在BAQ和測序質(zhì)量值中取較小值作為最終質(zhì)量值;該值小于第一閾值時(shí)過濾掉此堿基。統(tǒng)計(jì)樣本的每個(gè)位點(diǎn)突變堿基所占比率;該值大于等于第二閾值時(shí),此位點(diǎn)為樣本的染色體突變位點(diǎn)。采用本發(fā)明的技術(shù)方案以后,大幅度提升了基于高通量測序數(shù)據(jù)尋找樣本的染色體突變位點(diǎn)的分析速度。