文檔分類方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN202110462274.2 申請(qǐng)日 -
公開(公告)號(hào) CN113239190A 公開(公告)日 2021-08-10
申請(qǐng)公布號(hào) CN113239190A 申請(qǐng)公布日 2021-08-10
分類號(hào) G06F16/35(2019.01)I;G06F40/30(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 喻銀根 申請(qǐng)(專利權(quán))人 天九共享網(wǎng)絡(luò)科技集團(tuán)有限公司
代理機(jī)構(gòu) 北京英創(chuàng)嘉友知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 李柯瑩
地址 100012北京市朝陽區(qū)安立路30號(hào)仰山公園8號(hào)樓
法律狀態(tài) -

摘要

摘要 本公開涉及一種文檔分類方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。該方法包括:獲取帶目錄的文本文檔;提取文本文檔中的關(guān)鍵詞,并將關(guān)鍵詞與所述目錄進(jìn)行結(jié)合,得到文本文檔的壓縮文檔;對(duì)壓縮文檔進(jìn)行字詞混合編碼,得到目標(biāo)向量;將目標(biāo)向量輸入預(yù)先訓(xùn)練完成的深度學(xué)習(xí)模型,得到深度學(xué)習(xí)模型輸出的文檔分類結(jié)果。本公開實(shí)施例通過提取關(guān)鍵詞,并將關(guān)鍵詞與目錄進(jìn)行結(jié)合的方式,實(shí)現(xiàn)了在保留文本核心內(nèi)容的基礎(chǔ)上,對(duì)文本進(jìn)行了壓縮,降低了深度學(xué)習(xí)模型因文本過長(zhǎng)而對(duì)文本進(jìn)行截?cái)啵瑢?dǎo)致大部分文本核心信息丟失的概率。