醫(yī)學(xué)短文本數(shù)據(jù)負(fù)樣例采樣方法及醫(yī)學(xué)診斷標(biāo)準(zhǔn)術(shù)語映射模型訓(xùn)練方法

基本信息

申請?zhí)?/td> CN202010159004.X 申請日 -
公開(公告)號 CN111460091A 公開(公告)日 2020-07-28
申請公布號 CN111460091A 申請公布日 2020-07-28
分類號 G06F16/33(2019.01)I 分類 -
發(fā)明人 劉霄;趙鑫 申請(專利權(quán))人 杭州麥歌算法科技有限公司
代理機(jī)構(gòu) 杭州君度專利代理事務(wù)所(特殊普通合伙) 代理人 杭州麥歌算法科技有限公司
地址 310051浙江省杭州市濱江區(qū)六合路368號一幢(北)三層D3102室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及醫(yī)學(xué)短文本數(shù)據(jù)負(fù)樣例采樣方法及醫(yī)學(xué)診斷標(biāo)準(zhǔn)術(shù)語映射模型訓(xùn)練方法,包括:基于原始醫(yī)學(xué)診斷數(shù)據(jù)得到待映射文本,進(jìn)而生成訓(xùn)練集,驗(yàn)證集,測試集、基于標(biāo)準(zhǔn)術(shù)語集和待映射文本集合生成正樣例集合、對于正樣例集合中的任意正樣例,基于相似度計(jì)算函數(shù)生成候選負(fù)樣例集合、獲取正樣例集合的一個(gè)子集,對于其中的每個(gè)正樣例,從候選負(fù)樣例集合中抽取部分或負(fù)樣例生成訓(xùn)練集,將正樣例集合的子集與訓(xùn)練集合并后形成一個(gè)訓(xùn)練批次、將訓(xùn)練批次帶入神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。本發(fā)明提取負(fù)樣例更具代表性,分別提起正負(fù)樣例對修改的模型進(jìn)行模擬訓(xùn)練,實(shí)現(xiàn)對模型進(jìn)行泛化改進(jìn),模型的性能得到提升,提升了對未知細(xì)粒度術(shù)語的識別泛化性。??