一種基于圖注意力的半結(jié)構(gòu)文本分類方案

基本信息

申請?zhí)?/td> CN202110415787.8 申請日 -
公開(公告)號 CN113312477A 公開(公告)日 2021-08-27
申請公布號 CN113312477A 申請公布日 2021-08-27
分類號 G06F16/35(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 周靖宇;黃嘉鑫;景泳霖;袁陽平;鄒鴻岳 申請(專利權(quán))人 北京快確信息科技有限公司
代理機(jī)構(gòu) 深圳華屹智林知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 陳裕恒
地址 201700上海市青浦區(qū)浦倉路485號1幢2層
法律狀態(tài) -

摘要

摘要 一種基于圖注意力的半結(jié)構(gòu)文本分類方案,它包含以下技術(shù)方案步驟:步驟一,文本預(yù)處理、數(shù)據(jù)清洗,形成圖矩陣;步驟二,形成編碼層,采用albert預(yù)訓(xùn)練模型獲取embedding矩陣;步驟三,對embedding矩陣進(jìn)行attention操作,并基于圖矩陣進(jìn)行加權(quán)計(jì)算;步驟四,對特征向量矩陣壓縮后進(jìn)行文本分類。針對金融領(lǐng)域文本分類問題,尤其是在半結(jié)構(gòu)化的文本的情況下,尋常的分類器無法結(jié)合結(jié)構(gòu)化信息進(jìn)行識別,給出一種提取結(jié)構(gòu)信息并且融入到分類系統(tǒng)中,對最終的分類器準(zhǔn)確率提升是行之有效的,同時(shí)針對模型結(jié)構(gòu),尤其是取末尾幾層transformer、跨句間結(jié)構(gòu)權(quán)重比同句內(nèi)更高、multi?headattention等步驟,大大提高了信息表征抽取的能力,從而增加最后softmax分類的準(zhǔn)確率,具有較大的市場推廣價(jià)值。