一種基于SegaBert預(yù)訓(xùn)練模型的文本、簡歷和理財(cái)公告抽取方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110865625.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113486141A | 公開(公告)日 | 2021-10-08 |
申請(qǐng)公布號(hào) | CN113486141A | 申請(qǐng)公布日 | 2021-10-08 |
分類號(hào) | G06F16/31(2019.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06F40/253(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 戴良智;高宇棟;婁旭芳;王靖波;李明 | 申請(qǐng)(專利權(quán))人 | 寧波薄言信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京墨丘知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 代峰 |
地址 | 315000浙江省寧波市高新區(qū)光華路299弄9幢19號(hào)9-9室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于SegaBert預(yù)訓(xùn)練模型的文本、簡歷和理財(cái)公告抽取方法在預(yù)訓(xùn)練階段,能利用更豐富的位置表征,對(duì)段落、句子、詞語三者間的位置關(guān)系聯(lián)合建模,對(duì)輸入的文本能做到片段感知,提升了預(yù)訓(xùn)練語言模型的文本編碼能力,使其在微調(diào)階段得到更完善的句子和篇章表示,進(jìn)而提升下游任務(wù)的預(yù)測效果。增加對(duì)標(biāo)注和訓(xùn)練樣本預(yù)處理,能夠篩選出更合理的數(shù)據(jù);提取簡歷文本信息,對(duì)各個(gè)簡歷文本信息進(jìn)行中文分詞,實(shí)現(xiàn)所需簡歷信息的準(zhǔn)確提取,可以提高簡歷信息的抽取效率;通過對(duì)理財(cái)公告的文本進(jìn)行標(biāo)注,通過對(duì)預(yù)訓(xùn)練模型進(jìn)行預(yù)訓(xùn)練,從而通過訓(xùn)練后的預(yù)訓(xùn)練模型實(shí)現(xiàn)理財(cái)公告信息的獲取。 |
