基于機(jī)器學(xué)習(xí)技術(shù)的SNAREs蛋白識(shí)別方法、系統(tǒng)、存儲(chǔ)介質(zhì)及設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN202111027448.9 申請(qǐng)日 -
公開(公告)號(hào) CN113724779B 公開(公告)日 2022-06-17
申請(qǐng)公布號(hào) CN113724779B 申請(qǐng)公布日 2022-06-17
分類號(hào) G16B5/00(2019.01)I;G16B30/10(2019.01)I;G16B40/00(2019.01)I;G16B50/00(2019.01)I;G06N20/00(2019.01)I 分類 物理
發(fā)明人 汪國(guó)華;張子瀟;鄒權(quán);杜軍平 申請(qǐng)(專利權(quán))人 電子科技大學(xué)長(zhǎng)三角研究院(衢州)
代理機(jī)構(gòu) 哈爾濱市松花江專利商標(biāo)事務(wù)所 代理人 -
地址 150040黑龍江省哈爾濱市香坊區(qū)和興路26號(hào)
法律狀態(tài) -

摘要

摘要 基于機(jī)器學(xué)習(xí)技術(shù)的SNAREs蛋白識(shí)別方法、系統(tǒng)、存儲(chǔ)介質(zhì)及設(shè)備,屬于生物信息技術(shù)領(lǐng)域。為了解決現(xiàn)有的蛋白質(zhì)識(shí)別方法識(shí)別SNAREs蛋白存在時(shí)間開銷大、準(zhǔn)確率有待于提高的問題。本發(fā)明首先對(duì)蛋白序列文件,進(jìn)行去冗余等預(yù)處理,通過BLAST比對(duì)提取蛋白序列的PSSM矩陣,從PSSM矩陣中獲取蛋白質(zhì)序列的特征數(shù)據(jù),使用最大最小標(biāo)準(zhǔn)化算法對(duì)特征數(shù)據(jù)進(jìn)行歸一化處理,判斷數(shù)據(jù)集的平衡狀態(tài),選擇Smote?ENN和Smote?TOMEK采樣算法解決不平衡問題;然后使用SVM?RFE?CBR算法對(duì)特征進(jìn)行排序,剔除了排序靠后的噪聲特征;使用機(jī)器學(xué)習(xí)中的分類器,使用交叉驗(yàn)證的方法訓(xùn)練模型,最終得到有效識(shí)別SNAREs蛋白的模型。主要用于SNAREs蛋白的識(shí)別。