基于改進(jìn)Adaboost算法的句子相似性判斷方法

基本信息

申請?zhí)?/td> CN202110860567.6 申請日 -
公開(公告)號 CN113569553A 公開(公告)日 2021-10-29
申請公布號 CN113569553A 申請公布日 2021-10-29
分類號 G06F40/194(2020.01)I;G06F40/279(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 童瑤;蘇錦鈿 申請(專利權(quán))人 廣州芳禾數(shù)據(jù)有限公司
代理機(jī)構(gòu) 深圳市鼎泰正和知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 繆太清
地址 510000廣東省廣州市天河區(qū)五山路371-1號28樓A847號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于改進(jìn)Adaboost算法的句子相似性判斷方法,利用預(yù)訓(xùn)練語言模型在學(xué)習(xí)大規(guī)模文本的語義知識方面的優(yōu)勢以及Adaboost算法在集成多個基學(xué)習(xí)器方面的優(yōu)勢,先通過公開語料集中的訓(xùn)練數(shù)據(jù)對多個不同的預(yù)訓(xùn)練語言模型進(jìn)行獨(dú)立訓(xùn)練和微調(diào),目的是利用不同預(yù)訓(xùn)練語言中的先驗(yàn)知識和網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)文本語義相似性的任務(wù)相關(guān)知識;接著,在Adaboost R2算法的基礎(chǔ)上提出改進(jìn)的Adaboost算法,并結(jié)合驗(yàn)證數(shù)據(jù)集計(jì)算各個模型的權(quán)重系數(shù),并進(jìn)行歸一化。最后,根據(jù)權(quán)重系數(shù)將各個模型在測試數(shù)據(jù)集的預(yù)測結(jié)果進(jìn)行線性求和,從而得到最終的句子相似性結(jié)果。