一種基于CNN與BERT模型的英文語法糾錯方法
基本信息
申請?zhí)?/td> | CN201910085507.4 | 申請日 | - |
公開(公告)號 | CN111507092A | 公開(公告)日 | 2020-08-07 |
申請公布號 | CN111507092A | 申請公布日 | 2020-08-07 |
分類號 | G06F40/232;G06N3/04;G06N3/08 | 分類 | - |
發(fā)明人 | 馬士成;賈艷明 | 申請(專利權(quán))人 | 北京博智天下信息技術(shù)有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100085 北京市海淀區(qū)信息路甲28號D座05A502號 | ||
法律狀態(tài) | - |
摘要
摘要 | 英文語法糾錯是自然語言處理領(lǐng)域中的一個重要研究方向。傳統(tǒng)的語法糾錯系統(tǒng)多基于規(guī)則判斷,能夠檢測出的錯誤種類有限,擴(kuò)展能力差?,F(xiàn)有的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語法糾錯系統(tǒng)在面對長句子時,容易丟失頭尾的信息,且由于無法并行提取特征,致使訓(xùn)練周期長。本發(fā)明提供了一種基于CNN與BERT模型的英文語法糾錯方法。模型采用了CNN+Attention+BERT結(jié)構(gòu),實(shí)現(xiàn)方式采用了Encoder?Decoder框架。通過卷積,能夠高效并準(zhǔn)確地提取上下文的特征;Attention層為不同的單詞增加的權(quán)重,使得模型可以學(xué)到更重要的特征;BERT采用了Masked Language Model的方式來訓(xùn)練語言模型,通過fine?tuning可以為其添加(0,1)分類任務(wù),用于為糾錯系統(tǒng)輸出的句子評分,提高系統(tǒng)準(zhǔn)確度。 |
