一種基于SparkStreaming的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別發(fā)現(xiàn)方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202011230684.6 申請(qǐng)日 -
公開(公告)號(hào) CN112349349A 公開(公告)日 2021-02-09
申請(qǐng)公布號(hào) CN112349349A 申請(qǐng)公布日 2021-02-09
分類號(hào) G16B30/10(2019.01)I 分類 物理
發(fā)明人 李安亞 申請(qǐng)(專利權(quán))人 西安奧卡云數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 西安維賽恩專利代理事務(wù)所(普通合伙) 代理人 李明全
地址 710000陜西省西安市西咸新區(qū)秦漢新城周陵街辦新莊村天工一路東段長(zhǎng)信工業(yè)園6-2號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于Spark Streaming的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別發(fā)現(xiàn)方法和裝置,根據(jù)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的長(zhǎng)度在轉(zhuǎn)錄因子中提取第一基因片段,根據(jù)每個(gè)第一基因片段確定其對(duì)應(yīng)的候選基因片段集;將基因序列群分割為多個(gè)比較組;將每個(gè)第二基因片段與每個(gè)單位基因序列同時(shí)進(jìn)行比較,當(dāng)每個(gè)單位基因序列均具有第三基因片段時(shí),根據(jù)第二基因片段確定轉(zhuǎn)錄因子的預(yù)測(cè)結(jié)合位點(diǎn);遍歷候選基因片段集,生成轉(zhuǎn)錄因子的結(jié)合位點(diǎn)集;本發(fā)明通過將基因序列群分為多個(gè)比較組,且結(jié)合Spark Streaming理論,同時(shí)將每個(gè)比較組中的每個(gè)單位基因序列與根據(jù)轉(zhuǎn)錄因子確定的第二基因片段進(jìn)行比較,可以有效地提升整個(gè)方法的執(zhí)行效率,減少轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別過程中所消耗的時(shí)間。??