構建對核酸序列進行分類的模型方法及其應用

基本信息

申請?zhí)?/td> CN202011523286.3 申請日 -
公開(公告)號 CN112599196A 公開(公告)日 2021-04-02
申請公布號 CN112599196A 申請公布日 2021-04-02
分類號 G16B30/00(2019.01)I;G16B40/00(2019.01)I 分類 物理
發(fā)明人 張延明;趙增祥;杜楠;張萱;朱政英;萬麗君;王麗娜;侯全民 申請(專利權)人 北京諾賽基因組研究中心有限公司
代理機構 北京漢鼎理利專利代理事務所(特殊普通合伙) 代理人 潘滿根
地址 100176北京市大興區(qū)北京經(jīng)濟技術開發(fā)區(qū)永昌北路3號1號樓1層01
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種構建對核酸序列進行分類的模型方法,所述方法包括收集帶有準確分類標簽的核酸序列構建核酸序列數(shù)據(jù)庫,將核酸序列數(shù)據(jù)庫中所有核酸序列分割成等長度的短序列,從而形成短核酸序列均衡樣本,根據(jù)所述核酸序列數(shù)據(jù)庫中的核酸序列,提取核酸Kmer,形成核酸序列的Kmer字典;將短核酸序列均衡樣本轉化成數(shù)字信號;使用數(shù)字信號訓練一個能對核酸序列進行多分類的神經(jīng)網(wǎng)絡分類器。通過本發(fā)明方法構建的模型,能夠準確快速地將待測核酸序列與數(shù)據(jù)庫中的核酸序列標簽進行對應分類,并展示每個標簽的可靠性分值,通過可靠性分值可以判定待檢測核酸序列是否由數(shù)據(jù)庫中的序列重組而成,或者根據(jù)同一樣本基因組上的不同核酸序列片段的檢測結果進一步確定樣本的標簽。??