一種文本數(shù)據(jù)多標簽分類方法及裝置
基本信息
申請?zhí)?/td> | CN202110569710.6 | 申請日 | - |
公開(公告)號 | CN113297379A | 公開(公告)日 | 2021-08-24 |
申請公布號 | CN113297379A | 申請公布日 | 2021-08-24 |
分類號 | G06F16/35;G06K9/62;G06N3/04 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 胡任之;陳培華 | 申請(專利權)人 | 善診(上海)信息技術有限公司 |
代理機構(gòu) | 北京三友知識產(chǎn)權代理有限公司 | 代理人 | 許曼;賈磊 |
地址 | 201203 上海市浦東新區(qū)祖沖之路2290弄9號樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本文提供了一種文本數(shù)據(jù)多標簽分類方法及裝置,方法包括:對待分析文本數(shù)據(jù)進行預處理,得到詞/字序列;將詞/字序列輸入至多標簽分類模型中,得到待分析文本數(shù)據(jù)的標簽概率向量;根據(jù)待分析文本數(shù)據(jù)的標簽概率向量及預設的標簽分類閾值,計算得到待分析文本數(shù)據(jù)的標簽列表;多標簽分類模型包括嵌入層及編碼分類層;嵌入層用于根據(jù)文本數(shù)據(jù)的詞/字序列、預先確定的詞/字典和標簽類別字典,得到嵌入層的輸出向量;編碼分類層用于根據(jù)嵌入層的輸出向量,輸出文本數(shù)據(jù)的標簽概率向量;嵌入層的輸出向量包含詞/字嵌入、標簽類別字典中的標簽與文本數(shù)據(jù)的相關性以及標簽在文本數(shù)據(jù)中的位置。本文豐富了模型輸入的語義信息,能夠提升模型的準確率。 |
