基于GPT-2模型的中文電子病歷實(shí)體識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN201910946630.0 申請(qǐng)日 -
公開(公告)號(hào) CN110674641A 公開(公告)日 2020-01-10
申請(qǐng)公布號(hào) CN110674641A 申請(qǐng)公布日 2020-01-10
分類號(hào) G06F40/295(2020.01); G06F40/30(2020.01) 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 朱國勝; 吳善超; 劉飛鴻; 祁小云; 吳夢(mèng)宇 申請(qǐng)(專利權(quán))人 明理醫(yī)療科技(武漢)有限公司
代理機(jī)構(gòu) 武漢帥丞知識(shí)產(chǎn)權(quán)代理有限公司 代理人 武漢鴻名科技有限公司; 湖北大學(xué); 明理醫(yī)療科技(武漢)有限公司; 賽爾網(wǎng)絡(luò)有限公司
地址 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)高新大道666號(hào)光谷生物城生物創(chuàng)新園B1棟568-1號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于GPT?2模型的中文電子病歷實(shí)體識(shí)別方法,利用GPT?2預(yù)訓(xùn)練模型提取電子病例的特征向量,再從CRF模型作為出口得到識(shí)別概率,最終得到中文電子病例的命名實(shí)體,所述方法包括如下步驟:1)將中文電子病歷的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集兩個(gè)部分,并對(duì)兩個(gè)部分的數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)注,標(biāo)注后的數(shù)據(jù)包含原始中文電子病歷和實(shí)體標(biāo)注;2)以GPT?2預(yù)訓(xùn)練模型為基礎(chǔ),引入CRF模型,建立基于GPT2?CRF的中文電子病歷實(shí)體識(shí)別模型,使用訓(xùn)練集數(shù)據(jù)訓(xùn)練,得到訓(xùn)練后的中文電子病歷實(shí)體識(shí)別模型;3)將測(cè)試集數(shù)據(jù)輸入中文電子病歷實(shí)體識(shí)別模型中,通過評(píng)估分?jǐn)?shù)得到實(shí)體識(shí)別的最優(yōu)標(biāo)注序列。該方法不受文本形式限制,容易實(shí)現(xiàn),并且開發(fā)和運(yùn)行成本低。