一種面向醫(yī)療文本的預(yù)訓(xùn)練方法

基本信息

申請(qǐng)?zhí)?/td> CN202110690028.2 申請(qǐng)日 -
公開(公告)號(hào) CN113674866A 公開(公告)日 2021-11-19
申請(qǐng)公布號(hào) CN113674866A 申請(qǐng)公布日 2021-11-19
分類號(hào) G16H50/70(2018.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 物理
發(fā)明人 朱強(qiáng);王衛(wèi)東;楊毅;徐高軍 申請(qǐng)(專利權(quán))人 江蘇天瑞精準(zhǔn)醫(yī)療科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 214091江蘇省無錫市濱湖區(qū)馬山街道梅梁路136號(hào)4樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種面向醫(yī)療文本的預(yù)訓(xùn)練方法,具體步驟有:獲取疾病、檢查檢驗(yàn)、癥狀、藥品、身體部位和手術(shù)等醫(yī)療字典;采集百科、電子病歷中的醫(yī)療文本內(nèi)容;加載醫(yī)療字典,使用jieba對(duì)醫(yī)療文本進(jìn)行分詞處理,作為訓(xùn)練語料;從漢典中獲取漢字的圖片,不存在的字符,構(gòu)造相對(duì)應(yīng)的圖片;使用VGG?16卷積網(wǎng)絡(luò)提取字符特征;使用PCA降低提取的字符特征的維度,作為字向量;疊加字向量和字的位置向量作為新的字向量;加載開源的中文詞向量語料庫作為初始的詞向量;使用ELMo模型對(duì)醫(yī)療文本內(nèi)容進(jìn)行訓(xùn)練,獲得最終的ELMo預(yù)訓(xùn)練模型;使用ELMo預(yù)訓(xùn)練模型生成句中特定詞的ELMo向量。本發(fā)明的預(yù)訓(xùn)練方法,能夠解決通用語料不適應(yīng)醫(yī)學(xué)自然語言處理任務(wù)。