一種面向中文的預(yù)訓(xùn)練方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202010205873.1 申請日 -
公開(公告)號 CN111079447B 公開(公告)日 2020-04-28
申請公布號 CN111079447B 申請公布日 2020-04-28
分類號 G06F40/30(2020.01)I 分類 -
發(fā)明人 李舟軍;劉俊杰;肖武魁;覃維;陳小明;范宇 申請(專利權(quán))人 深圳智能思創(chuàng)科技有限公司
代理機(jī)構(gòu) 深圳市恒程創(chuàng)新知識產(chǎn)權(quán)代理有限公司 代理人 深圳智能思創(chuàng)科技有限公司
地址 518000廣東省深圳市南山區(qū)南頭街道蓮城社區(qū)深南大道10128號南山軟件園A2108-2107
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種面向中文的預(yù)訓(xùn)練方法及系統(tǒng),包括:模型參數(shù)配置模塊、預(yù)訓(xùn)練模型生成模塊和服務(wù)封裝模塊。模型參數(shù)配置模塊:主要針對用戶需要根據(jù)自身需求定制中文預(yù)訓(xùn)練模型的情況,使其能夠以友好的界面方式配置預(yù)訓(xùn)練模型的參數(shù);預(yù)訓(xùn)練模型生成模塊:根據(jù)用戶提交的模型參數(shù)配置和預(yù)訓(xùn)練語料數(shù)據(jù),訓(xùn)練一個(gè)中文預(yù)訓(xùn)練模型,并以模型文件的方式保存下來;服務(wù)封裝模塊:將模型文件封裝成一個(gè)中文特征抽取器服務(wù),并給用戶提供相應(yīng)的Docker鏡像方便服務(wù)的部署。本發(fā)明專門針對大規(guī)模的無監(jiān)督中文語料,提出了一種面向中文的預(yù)訓(xùn)練方法及系統(tǒng),有效地提高了預(yù)訓(xùn)練方法在中文任務(wù)上的表現(xiàn)。??