基于雙向長(zhǎng)短記憶模型的藥物小分子活性預(yù)測(cè)的方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202010464590.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111640471A | 公開(kāi)(公告)日 | 2020-09-08 |
申請(qǐng)公布號(hào) | CN111640471A | 申請(qǐng)公布日 | 2020-09-08 |
分類(lèi)號(hào) | G16C20/30(2019.01)I | 分類(lèi) | 物理 |
發(fā)明人 | 牛張明;韋德·門(mén)佩斯-史密斯 | 申請(qǐng)(專利權(quán))人 | 杭州德睿智藥科技有限公司 |
代理機(jī)構(gòu) | 上海智晟知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 牛張明;韋德·門(mén)佩斯-史密斯 |
地址 | 浙江省杭州市錢(qián)塘新區(qū)新加坡科技園15幢11樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于雙向長(zhǎng)短記憶模型的藥物小分子活性預(yù)測(cè)的方法,包括:獲取數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理,包括將所述數(shù)據(jù)集中的所有化合物分子用SMILES表示,對(duì)所有分子的SMILES表達(dá)式做標(biāo)準(zhǔn)化處理,統(tǒng)一分子SMILES表達(dá)式中的原子、鍵、連接關(guān)系的編碼方式和順序,利用分子的InChIKey,進(jìn)行去重復(fù)化處理;對(duì)預(yù)處理的數(shù)據(jù)集進(jìn)行編碼,其中通過(guò)獨(dú)熱編碼對(duì)SMILES序列的單個(gè)元素、單個(gè)數(shù)字、單個(gè)符號(hào)以及整個(gè)方括號(hào)看作一個(gè)序列令牌,每個(gè)令牌本身具有化學(xué)意義和指向性,任何令牌的組合符合化學(xué)規(guī)則;構(gòu)建雙向長(zhǎng)短記憶核心片段識(shí)別模型;將編碼數(shù)據(jù)輸入所述雙向長(zhǎng)短記憶核心片段識(shí)別模型,得到隱藏狀態(tài)矩;以及對(duì)上述雙向長(zhǎng)短記憶核心片段識(shí)別模型進(jìn)行評(píng)估。?? |
