高通量測序數(shù)據(jù)質(zhì)量過濾方法和過濾裝置

基本信息

申請?zhí)?/td> CN201611236128.3 申請日 -
公開(公告)號 CN106777262B 公開(公告)日 2020-07-03
申請公布號 CN106777262B 申請公布日 2020-07-03
分類號 G06F16/174;G06F16/182;G16B15/00 分類 -
發(fā)明人 陳晨;王震;于偉文 申請(專利權(quán))人 上海華點云生物科技有限公司
代理機構(gòu) 北京邦信陽專利商標(biāo)代理有限公司 代理人 上海華點云生物科技有限公司
地址 200335 上海市長寧區(qū)廣順路33號8幢490室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種對高通量測序數(shù)據(jù)進(jìn)行質(zhì)量過濾的方法和裝置,所述方法包括:根據(jù)所述高通量測序數(shù)據(jù)為并行計算做準(zhǔn)備;通過并行計算過濾掉準(zhǔn)備好的數(shù)據(jù)中質(zhì)量不達(dá)標(biāo)的數(shù)據(jù)。確定質(zhì)量轉(zhuǎn)換方式;數(shù)據(jù)切分;生成并行計算的執(zhí)行實體。將第一文件和第二文件分別轉(zhuǎn)換為第一RDD和第二RDD;將第一RDD和第二RDD分別切分為第一partition組和第二partition組;將第一RDD和第二RDD合并為第三RDD;將第三RDD切分為第三partition組。生成對第三partition組進(jìn)行并行計算的執(zhí)行實體task。采用本發(fā)明的技術(shù)方案,能夠大大提高對高通量測序數(shù)據(jù)進(jìn)行質(zhì)量過濾的執(zhí)行速度。