基于非監(jiān)督的文本去噪方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202011398468.2 | 申請日 | - |
公開(公告)號 | CN112560457A | 公開(公告)日 | 2021-03-26 |
申請公布號 | CN112560457A | 申請公布日 | 2021-03-26 |
分類號 | G06F16/35(2019.01)I;G06F40/258(2020.01)I;G06F16/33(2019.01)I;G06F40/289(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 吳明平 | 申請(專利權(quán))人 | 上海風(fēng)秩科技有限公司 |
代理機(jī)構(gòu) | 青島清泰聯(lián)信知識產(chǎn)權(quán)代理有限公司 | 代理人 | 李紅巖 |
地址 | 200232上海市徐匯區(qū)龍?zhí)m路277號2號樓5樓5B04單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出一種基于非監(jiān)督的文本去噪方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),其方法技術(shù)方案包括文本收集步驟,根據(jù)預(yù)設(shè)的主題詞收集包含所述主題詞的文本數(shù)據(jù);相似度計(jì)算步驟,計(jì)算所述主題詞與一詞向量數(shù)據(jù)庫中目標(biāo)詞的相似度,并獲取所述相似度滿足一閾值要求的所有所述目標(biāo)詞作為主題相關(guān)詞;噪聲去除步驟,計(jì)算所述文本數(shù)據(jù)與所述主題相關(guān)詞的匹配度,并將所述匹配度不滿足一閾值要求的所述文本數(shù)據(jù)作為噪聲去除。本發(fā)明采用計(jì)算文本內(nèi)容與主題詞相關(guān)程度的方法,避免了傳統(tǒng)規(guī)則統(tǒng)計(jì)方法可能產(chǎn)生的誤判,并可以解決監(jiān)督算法識別未知新分類的難題。?? |
