一種基于albert預(yù)訓(xùn)練模型和kmean算法的評(píng)論標(biāo)簽提取的方法

基本信息

申請(qǐng)?zhí)?/td> CN202011243154.5 申請(qǐng)日 -
公開(公告)號(hào) CN112215003A 公開(公告)日 2021-01-12
申請(qǐng)公布號(hào) CN112215003A 申請(qǐng)公布日 2021-01-12
分類號(hào) G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 廖杰;鄧方華;張衍彬 申請(qǐng)(專利權(quán))人 深圳市洪堡智慧餐飲科技有限公司
代理機(jī)構(gòu) 深圳市深聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張琪
地址 518000廣東省深圳市福田區(qū)梅林街道孖嶺社區(qū)凱豐路10號(hào)翠林大廈8層808A
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體為一種基于albert預(yù)訓(xùn)練模型和kmean算法的評(píng)論標(biāo)簽提取的方法,該方法的步驟如下:步驟一、爬取門店的評(píng)論數(shù)據(jù),數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫(kù)中;步驟二、對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;步驟三、利用albert預(yù)訓(xùn)練模型獲得詞向量;步驟四、評(píng)估模型的平均準(zhǔn)確率,本發(fā)明利用albert作為預(yù)訓(xùn)練模型,模型小,訓(xùn)練速度快,對(duì)于大規(guī)模數(shù)據(jù)情況下,效果更好,本發(fā)明利用kmean算法作為無監(jiān)督的聚類算法,通過獲取albert的最后一層詞向量作為輸入,并最終通過kmean聚類算法聚類,達(dá)到更為準(zhǔn)確的預(yù)估準(zhǔn)確率。??