基于句法模式識別的藥物小分子毒性預(yù)測的方法

基本信息

申請?zhí)?/td> CN202010460271.0 申請日 -
公開(公告)號 CN111640470A 公開(公告)日 2020-09-08
申請公布號 CN111640470A 申請公布日 2020-09-08
分類號 G16C20/30(2019.01)I 分類 物理
發(fā)明人 牛張明;韋德·門佩斯-史密斯 申請(專利權(quán))人 杭州德睿智藥科技有限公司
代理機構(gòu) 上海智晟知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 牛張明;韋德·門佩斯-史密斯
地址 浙江省杭州市錢塘新區(qū)新加坡科技園15幢11樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于句法模式識別的藥物小分子毒性預(yù)測的方法,包括:獲取數(shù)據(jù)集;對所述數(shù)據(jù)集進行預(yù)處理,包括將所述數(shù)據(jù)集中的所有化合物分子用SMILES表示,對所有分子的SMILES表達式做標準化處理,統(tǒng)一分子SMILES表達式中的原子、鍵、連接關(guān)系的編碼方式和順序,然后進行去重復(fù)化處理;對預(yù)處理的數(shù)據(jù)集進行編碼,其中通過獨熱編碼對SMILES序列的單個元素、單個數(shù)字、單個符號以及整個方括號看作一個基元片段。每個基元片段本身是具有化學(xué)意義和指向性的,任何基元片段的組合也是符合化學(xué)規(guī)則,所述所有分子的SMILES表達式轉(zhuǎn)換為向量組合;構(gòu)建句法模式識別模型;將向量組合輸入所述句法模式識別模型,預(yù)估分子是否含有特定靶標的毒性;以及對所述句法模式識別模型進行評估。??