一種文本數(shù)據(jù)多標簽分類方法及裝置

基本信息

申請?zhí)?/td> CN202110569710.6 申請日 -
公開(公告)號 CN113297379A 公開(公告)日 2021-08-24
申請公布號 CN113297379A 申請公布日 2021-08-24
分類號 G06F16/35;G06K9/62;G06N3/04 分類 計算;推算;計數(shù);
發(fā)明人 胡任之;陳培華 申請(專利權)人 善診(上海)信息技術有限公司
代理機構(gòu) 北京三友知識產(chǎn)權代理有限公司 代理人 許曼;賈磊
地址 201203 上海市浦東新區(qū)祖沖之路2290弄9號樓
法律狀態(tài) -

摘要

摘要 本文提供了一種文本數(shù)據(jù)多標簽分類方法及裝置,方法包括:對待分析文本數(shù)據(jù)進行預處理,得到詞/字序列;將詞/字序列輸入至多標簽分類模型中,得到待分析文本數(shù)據(jù)的標簽概率向量;根據(jù)待分析文本數(shù)據(jù)的標簽概率向量及預設的標簽分類閾值,計算得到待分析文本數(shù)據(jù)的標簽列表;多標簽分類模型包括嵌入層及編碼分類層;嵌入層用于根據(jù)文本數(shù)據(jù)的詞/字序列、預先確定的詞/字典和標簽類別字典,得到嵌入層的輸出向量;編碼分類層用于根據(jù)嵌入層的輸出向量,輸出文本數(shù)據(jù)的標簽概率向量;嵌入層的輸出向量包含詞/字嵌入、標簽類別字典中的標簽與文本數(shù)據(jù)的相關性以及標簽在文本數(shù)據(jù)中的位置。本文豐富了模型輸入的語義信息,能夠提升模型的準確率。