一種基于圖注意力的半結(jié)構(gòu)文本分類方案
基本信息
申請?zhí)?/td> | CN202110415787.8 | 申請日 | - |
公開(公告)號 | CN113312477A | 公開(公告)日 | 2021-08-27 |
申請公布號 | CN113312477A | 申請公布日 | 2021-08-27 |
分類號 | G06F16/35(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 周靖宇;黃嘉鑫;景泳霖;袁陽平;鄒鴻岳 | 申請(專利權(quán))人 | 北京快確信息科技有限公司 |
代理機(jī)構(gòu) | 深圳華屹智林知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 陳裕恒 |
地址 | 201700上海市青浦區(qū)浦倉路485號1幢2層 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于圖注意力的半結(jié)構(gòu)文本分類方案,它包含以下技術(shù)方案步驟:步驟一,文本預(yù)處理、數(shù)據(jù)清洗,形成圖矩陣;步驟二,形成編碼層,采用albert預(yù)訓(xùn)練模型獲取embedding矩陣;步驟三,對embedding矩陣進(jìn)行attention操作,并基于圖矩陣進(jìn)行加權(quán)計(jì)算;步驟四,對特征向量矩陣壓縮后進(jìn)行文本分類。針對金融領(lǐng)域文本分類問題,尤其是在半結(jié)構(gòu)化的文本的情況下,尋常的分類器無法結(jié)合結(jié)構(gòu)化信息進(jìn)行識別,給出一種提取結(jié)構(gòu)信息并且融入到分類系統(tǒng)中,對最終的分類器準(zhǔn)確率提升是行之有效的,同時(shí)針對模型結(jié)構(gòu),尤其是取末尾幾層transformer、跨句間結(jié)構(gòu)權(quán)重比同句內(nèi)更高、multi?headattention等步驟,大大提高了信息表征抽取的能力,從而增加最后softmax分類的準(zhǔn)確率,具有較大的市場推廣價(jià)值。 |
