一種基于SparkStreaming的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別發(fā)現(xiàn)方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN202011230684.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112349349A | 公開(公告)日 | 2021-02-09 |
申請(qǐng)公布號(hào) | CN112349349A | 申請(qǐng)公布日 | 2021-02-09 |
分類號(hào) | G16B30/10(2019.01)I | 分類 | 物理 |
發(fā)明人 | 李安亞 | 申請(qǐng)(專利權(quán))人 | 西安奧卡云數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 西安維賽恩專利代理事務(wù)所(普通合伙) | 代理人 | 李明全 |
地址 | 710000陜西省西安市西咸新區(qū)秦漢新城周陵街辦新莊村天工一路東段長(zhǎng)信工業(yè)園6-2號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于Spark Streaming的轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別發(fā)現(xiàn)方法和裝置,根據(jù)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的長(zhǎng)度在轉(zhuǎn)錄因子中提取第一基因片段,根據(jù)每個(gè)第一基因片段確定其對(duì)應(yīng)的候選基因片段集;將基因序列群分割為多個(gè)比較組;將每個(gè)第二基因片段與每個(gè)單位基因序列同時(shí)進(jìn)行比較,當(dāng)每個(gè)單位基因序列均具有第三基因片段時(shí),根據(jù)第二基因片段確定轉(zhuǎn)錄因子的預(yù)測(cè)結(jié)合位點(diǎn);遍歷候選基因片段集,生成轉(zhuǎn)錄因子的結(jié)合位點(diǎn)集;本發(fā)明通過將基因序列群分為多個(gè)比較組,且結(jié)合Spark Streaming理論,同時(shí)將每個(gè)比較組中的每個(gè)單位基因序列與根據(jù)轉(zhuǎn)錄因子確定的第二基因片段進(jìn)行比較,可以有效地提升整個(gè)方法的執(zhí)行效率,減少轉(zhuǎn)錄因子結(jié)合位點(diǎn)識(shí)別過程中所消耗的時(shí)間。?? |
