一種多策略清洗社交媒體文本數(shù)據(jù)的系統(tǒng)和方法

基本信息

申請(qǐng)?zhí)?/td> CN201710873539.1 申請(qǐng)日 -
公開(公告)號(hào) CN107633077B 公開(公告)日 2020-12-18
申請(qǐng)公布號(hào) CN107633077B 申請(qǐng)公布日 2020-12-18
分類號(hào) G06F16/9536;G06F16/35;G06F40/216;G06F40/289;G06K9/62;G06Q50/00 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 薛涵凜;王穎 申請(qǐng)(專利權(quán))人 南京安鏈數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 210000 江蘇省南京市雨花臺(tái)區(qū)雨花經(jīng)濟(jì)開發(fā)區(qū)鳳華路18號(hào)1幢B315-6室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種多策略清洗社交媒體文本數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括:相似文本識(shí)別模塊、營(yíng)銷文本識(shí)別模塊和垃圾用戶識(shí)別模塊,多策略清洗社交媒體文本數(shù)據(jù)的方法包括步驟A:社交媒體文本的相似度計(jì)算,基于網(wǎng)絡(luò)營(yíng)銷文本的特征和SVM分離器識(shí)別出營(yíng)銷文本,記錄發(fā)布網(wǎng)絡(luò)營(yíng)銷文本的用戶;基于前兩步記錄發(fā)布“營(yíng)銷文本”和“重復(fù)文本”的用戶黑名單。本發(fā)明的有益技術(shù)效果是:不局限于用一種手段實(shí)現(xiàn)社交媒體數(shù)據(jù)清洗,分步、多策略的對(duì)不同類型的垃圾文本實(shí)現(xiàn)過濾。對(duì)比單一的文本垃圾過濾和垃圾用戶識(shí)別方法,本發(fā)明具有更好的適用性,有更廣的應(yīng)用前景。