語義特征提取方法及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202111589256.7 申請(qǐng)日 -
公開(公告)號(hào) CN113971407B 公開(公告)日 2022-03-18
申請(qǐng)公布號(hào) CN113971407B 申請(qǐng)公布日 2022-03-18
分類號(hào) G06F40/30(2020.01)I;G06F40/216(2020.01)I;G06F40/237(2020.01)I;G06F16/36(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 劉國(guó)清;楊廣;王啟程;鄭偉;杜佩佩;楊國(guó)武 申請(qǐng)(專利權(quán))人 深圳佑駕創(chuàng)新科技有限公司
代理機(jī)構(gòu) 深圳市倡創(chuàng)專利代理事務(wù)所(普通合伙) 代理人 羅明玉
地址 518049廣東省深圳市福田區(qū)梅林街道梅都社區(qū)中康路136號(hào)深圳新一代產(chǎn)業(yè)園1棟401
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種語義特征提取方法,包括:獲取若干類別的文本數(shù)據(jù),其中,每一類別的文本數(shù)據(jù)均包括若干單詞;計(jì)算所有文本數(shù)據(jù)中每一單詞與每一類別的相關(guān)性;根據(jù)相關(guān)性從文本數(shù)據(jù)中選取部分單詞作為候選詞;計(jì)算預(yù)設(shè)特征詞庫中的預(yù)設(shè)特征詞和候選詞之間的互信息,其中,預(yù)設(shè)特征詞庫中的預(yù)設(shè)特征詞用于描述文本數(shù)據(jù)的類別;根據(jù)互信息選取部分候選詞加入預(yù)設(shè)特征詞庫中以形成類別語義詞庫;根據(jù)類別語義詞庫對(duì)文本數(shù)據(jù)進(jìn)行掩碼處理以得到掩碼文本;根據(jù)掩碼文本訓(xùn)練BERT模型以得到語義特征提取模型;以及將每一類別的文本數(shù)據(jù)輸入語義特征提取模型以得到相應(yīng)的語義特征向量。本發(fā)明技術(shù)方案用于提取各類別的語義特征向量。