基于非監(jiān)督的文本去噪方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011398468.2 申請日 -
公開(公告)號 CN112560457A 公開(公告)日 2021-03-26
申請公布號 CN112560457A 申請公布日 2021-03-26
分類號 G06F16/35(2019.01)I;G06F40/258(2020.01)I;G06F16/33(2019.01)I;G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 吳明平 申請(專利權(quán))人 上海風(fēng)秩科技有限公司
代理機(jī)構(gòu) 青島清泰聯(lián)信知識產(chǎn)權(quán)代理有限公司 代理人 李紅巖
地址 200232上海市徐匯區(qū)龍?zhí)m路277號2號樓5樓5B04單元
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種基于非監(jiān)督的文本去噪方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),其方法技術(shù)方案包括文本收集步驟,根據(jù)預(yù)設(shè)的主題詞收集包含所述主題詞的文本數(shù)據(jù);相似度計(jì)算步驟,計(jì)算所述主題詞與一詞向量數(shù)據(jù)庫中目標(biāo)詞的相似度,并獲取所述相似度滿足一閾值要求的所有所述目標(biāo)詞作為主題相關(guān)詞;噪聲去除步驟,計(jì)算所述文本數(shù)據(jù)與所述主題相關(guān)詞的匹配度,并將所述匹配度不滿足一閾值要求的所述文本數(shù)據(jù)作為噪聲去除。本發(fā)明采用計(jì)算文本內(nèi)容與主題詞相關(guān)程度的方法,避免了傳統(tǒng)規(guī)則統(tǒng)計(jì)方法可能產(chǎn)生的誤判,并可以解決監(jiān)督算法識別未知新分類的難題。??