基于改進(jìn)Adaboost算法的句子相似性判斷方法
基本信息
申請?zhí)?/td> | CN202110860567.6 | 申請日 | - |
公開(公告)號 | CN113569553A | 公開(公告)日 | 2021-10-29 |
申請公布號 | CN113569553A | 申請公布日 | 2021-10-29 |
分類號 | G06F40/194(2020.01)I;G06F40/279(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 童瑤;蘇錦鈿 | 申請(專利權(quán))人 | 廣州芳禾數(shù)據(jù)有限公司 |
代理機(jī)構(gòu) | 深圳市鼎泰正和知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 繆太清 |
地址 | 510000廣東省廣州市天河區(qū)五山路371-1號28樓A847號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于改進(jìn)Adaboost算法的句子相似性判斷方法,利用預(yù)訓(xùn)練語言模型在學(xué)習(xí)大規(guī)模文本的語義知識方面的優(yōu)勢以及Adaboost算法在集成多個基學(xué)習(xí)器方面的優(yōu)勢,先通過公開語料集中的訓(xùn)練數(shù)據(jù)對多個不同的預(yù)訓(xùn)練語言模型進(jìn)行獨(dú)立訓(xùn)練和微調(diào),目的是利用不同預(yù)訓(xùn)練語言中的先驗(yàn)知識和網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)文本語義相似性的任務(wù)相關(guān)知識;接著,在Adaboost R2算法的基礎(chǔ)上提出改進(jìn)的Adaboost算法,并結(jié)合驗(yàn)證數(shù)據(jù)集計(jì)算各個模型的權(quán)重系數(shù),并進(jìn)行歸一化。最后,根據(jù)權(quán)重系數(shù)將各個模型在測試數(shù)據(jù)集的預(yù)測結(jié)果進(jìn)行線性求和,從而得到最終的句子相似性結(jié)果。 |
