面向多數(shù)據(jù)源的疾病類實體識別方法及裝置

基本信息

申請?zhí)?/td> CN201710101821.8 申請日 -
公開(公告)號 CN106934220A 公開(公告)日 2017-07-07
申請公布號 CN106934220A 申請公布日 2017-07-07
分類號 G06F19/00;G06F17/27;G06F17/30 分類 計算;推算;計數(shù);
發(fā)明人 李雪莉;黃玉麗;關(guān)毅 申請(專利權(quán))人 黑龍江特士信息技術(shù)有限公司
代理機構(gòu) 北京三友知識產(chǎn)權(quán)代理有限公司 代理人 黑龍江特士信息技術(shù)有限公司;哈爾濱工業(yè)大學(xué);易保互聯(lián)醫(yī)療信息科技(北京)有限公司
地址 150000 黑龍江省哈爾濱市經(jīng)開區(qū)哈平路集中區(qū)松花路9號中國云谷軟件園1號樓214室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種面向多數(shù)據(jù)源的疾病類實體識別方法及裝置,涉及醫(yī)療實體識別技術(shù)領(lǐng)域。方法包括:獲取原始數(shù)據(jù)中的待處理語句;將待處理語句進行單字切分,確定待處理語句中的每個文字;根據(jù)預(yù)先訓(xùn)練完成的CRF訓(xùn)練模型,確定待處理語句中的每個文字在待處理語句中的實體標(biāo)記,并確定待處理語句的實體標(biāo)記序列;根據(jù)待處理語句的實體標(biāo)記序列,確定待處理語句的第一組候選實體;根據(jù)預(yù)先設(shè)置的疾病類術(shù)語切分策略,對待處理語句進行術(shù)語切分,確定第二組候選實體;對各候選實體進行篩選,分別形成第一組疾病類候選實體和第二組疾病類候選實體;根據(jù)預(yù)先設(shè)置的判斷策略從第一組疾病類候選實體和第二組疾病類候選實體中確定疾病類實體結(jié)果。