高通量測序數(shù)據(jù)質(zhì)量過濾方法和過濾裝置
基本信息
申請?zhí)?/td> | CN201611236128.3 | 申請日 | - |
公開(公告)號 | CN106777262B | 公開(公告)日 | 2020-07-03 |
申請公布號 | CN106777262B | 申請公布日 | 2020-07-03 |
分類號 | G06F16/174;G06F16/182;G16B15/00 | 分類 | - |
發(fā)明人 | 陳晨;王震;于偉文 | 申請(專利權(quán))人 | 上海華點云生物科技有限公司 |
代理機構(gòu) | 北京邦信陽專利商標(biāo)代理有限公司 | 代理人 | 上海華點云生物科技有限公司 |
地址 | 200335 上海市長寧區(qū)廣順路33號8幢490室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種對高通量測序數(shù)據(jù)進(jìn)行質(zhì)量過濾的方法和裝置,所述方法包括:根據(jù)所述高通量測序數(shù)據(jù)為并行計算做準(zhǔn)備;通過并行計算過濾掉準(zhǔn)備好的數(shù)據(jù)中質(zhì)量不達(dá)標(biāo)的數(shù)據(jù)。確定質(zhì)量轉(zhuǎn)換方式;數(shù)據(jù)切分;生成并行計算的執(zhí)行實體。將第一文件和第二文件分別轉(zhuǎn)換為第一RDD和第二RDD;將第一RDD和第二RDD分別切分為第一partition組和第二partition組;將第一RDD和第二RDD合并為第三RDD;將第三RDD切分為第三partition組。生成對第三partition組進(jìn)行并行計算的執(zhí)行實體task。采用本發(fā)明的技術(shù)方案,能夠大大提高對高通量測序數(shù)據(jù)進(jìn)行質(zhì)量過濾的執(zhí)行速度。 |
