基于改進Adaboost算法的句子相似性判斷方法

基本信息

申請?zhí)?/td> CN202110860567.6 申請日 -
公開(公告)號 CN113569553A 公開(公告)日 2021-10-29
申請公布號 CN113569553A 申請公布日 2021-10-29
分類號 G06F40/194(2020.01)I;G06F40/279(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 童瑤;蘇錦鈿 申請(專利權(quán))人 廣州芳禾數(shù)據(jù)有限公司
代理機構(gòu) 深圳市鼎泰正和知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 繆太清
地址 510000廣東省廣州市天河區(qū)五山路371-1號28樓A847號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于改進Adaboost算法的句子相似性判斷方法,利用預(yù)訓(xùn)練語言模型在學(xué)習(xí)大規(guī)模文本的語義知識方面的優(yōu)勢以及Adaboost算法在集成多個基學(xué)習(xí)器方面的優(yōu)勢,先通過公開語料集中的訓(xùn)練數(shù)據(jù)對多個不同的預(yù)訓(xùn)練語言模型進行獨立訓(xùn)練和微調(diào),目的是利用不同預(yù)訓(xùn)練語言中的先驗知識和網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)文本語義相似性的任務(wù)相關(guān)知識;接著,在Adaboost R2算法的基礎(chǔ)上提出改進的Adaboost算法,并結(jié)合驗證數(shù)據(jù)集計算各個模型的權(quán)重系數(shù),并進行歸一化。最后,根據(jù)權(quán)重系數(shù)將各個模型在測試數(shù)據(jù)集的預(yù)測結(jié)果進行線性求和,從而得到最終的句子相似性結(jié)果。