基于雙向長(zhǎng)短記憶模型的藥物小分子活性預(yù)測(cè)的方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202010464590.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111640471A 公開(kāi)(公告)日 2020-09-08
申請(qǐng)公布號(hào) CN111640471A 申請(qǐng)公布日 2020-09-08
分類(lèi)號(hào) G16C20/30(2019.01)I 分類(lèi) 物理
發(fā)明人 牛張明;韋德·門(mén)佩斯-史密斯 申請(qǐng)(專利權(quán))人 杭州德睿智藥科技有限公司
代理機(jī)構(gòu) 上海智晟知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 牛張明;韋德·門(mén)佩斯-史密斯
地址 浙江省杭州市錢(qián)塘新區(qū)新加坡科技園15幢11樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于雙向長(zhǎng)短記憶模型的藥物小分子活性預(yù)測(cè)的方法,包括:獲取數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理,包括將所述數(shù)據(jù)集中的所有化合物分子用SMILES表示,對(duì)所有分子的SMILES表達(dá)式做標(biāo)準(zhǔn)化處理,統(tǒng)一分子SMILES表達(dá)式中的原子、鍵、連接關(guān)系的編碼方式和順序,利用分子的InChIKey,進(jìn)行去重復(fù)化處理;對(duì)預(yù)處理的數(shù)據(jù)集進(jìn)行編碼,其中通過(guò)獨(dú)熱編碼對(duì)SMILES序列的單個(gè)元素、單個(gè)數(shù)字、單個(gè)符號(hào)以及整個(gè)方括號(hào)看作一個(gè)序列令牌,每個(gè)令牌本身具有化學(xué)意義和指向性,任何令牌的組合符合化學(xué)規(guī)則;構(gòu)建雙向長(zhǎng)短記憶核心片段識(shí)別模型;將編碼數(shù)據(jù)輸入所述雙向長(zhǎng)短記憶核心片段識(shí)別模型,得到隱藏狀態(tài)矩;以及對(duì)上述雙向長(zhǎng)短記憶核心片段識(shí)別模型進(jìn)行評(píng)估。??