基于GPT-2模型的中文電子病歷實(shí)體識(shí)別方法
基本信息
申請(qǐng)?zhí)?/td> | CN201910946630.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110674641A | 公開(公告)日 | 2020-01-10 |
申請(qǐng)公布號(hào) | CN110674641A | 申請(qǐng)公布日 | 2020-01-10 |
分類號(hào) | G06F40/295(2020.01); G06F40/30(2020.01) | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 朱國勝; 吳善超; 劉飛鴻; 祁小云; 吳夢(mèng)宇 | 申請(qǐng)(專利權(quán))人 | 明理醫(yī)療科技(武漢)有限公司 |
代理機(jī)構(gòu) | 武漢帥丞知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 武漢鴻名科技有限公司; 湖北大學(xué); 明理醫(yī)療科技(武漢)有限公司; 賽爾網(wǎng)絡(luò)有限公司 |
地址 | 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)高新大道666號(hào)光谷生物城生物創(chuàng)新園B1棟568-1號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于GPT?2模型的中文電子病歷實(shí)體識(shí)別方法,利用GPT?2預(yù)訓(xùn)練模型提取電子病例的特征向量,再從CRF模型作為出口得到識(shí)別概率,最終得到中文電子病例的命名實(shí)體,所述方法包括如下步驟:1)將中文電子病歷的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集兩個(gè)部分,并對(duì)兩個(gè)部分的數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)注,標(biāo)注后的數(shù)據(jù)包含原始中文電子病歷和實(shí)體標(biāo)注;2)以GPT?2預(yù)訓(xùn)練模型為基礎(chǔ),引入CRF模型,建立基于GPT2?CRF的中文電子病歷實(shí)體識(shí)別模型,使用訓(xùn)練集數(shù)據(jù)訓(xùn)練,得到訓(xùn)練后的中文電子病歷實(shí)體識(shí)別模型;3)將測(cè)試集數(shù)據(jù)輸入中文電子病歷實(shí)體識(shí)別模型中,通過評(píng)估分?jǐn)?shù)得到實(shí)體識(shí)別的最優(yōu)標(biāo)注序列。該方法不受文本形式限制,容易實(shí)現(xiàn),并且開發(fā)和運(yùn)行成本低。 |
