一種多策略清洗社交媒體文本數(shù)據(jù)的系統(tǒng)和方法
基本信息
申請(qǐng)?zhí)?/td> | CN201710873539.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN107633077A | 公開(公告)日 | 2018-01-26 |
申請(qǐng)公布號(hào) | CN107633077A | 申請(qǐng)公布日 | 2018-01-26 |
分類號(hào) | G06F17/30;G06F17/27;G06K9/62;G06Q50/00 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 薛涵凜;王穎 | 申請(qǐng)(專利權(quán))人 | 南京安鏈數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 210000 江蘇省南京市雨花臺(tái)區(qū)雨花經(jīng)濟(jì)開發(fā)區(qū)鳳華路18號(hào)1幢B315-6室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種多策略清洗社交媒體文本數(shù)據(jù)的系統(tǒng),該系統(tǒng)包括:相似文本識(shí)別模塊、營(yíng)銷文本識(shí)別模塊和垃圾用戶識(shí)別模塊,多策略清洗社交媒體文本數(shù)據(jù)的方法包括步驟A:社交媒體文本的相似度計(jì)算,基于網(wǎng)絡(luò)營(yíng)銷文本的特征和SVM分離器識(shí)別出營(yíng)銷文本,記錄發(fā)布網(wǎng)絡(luò)營(yíng)銷文本的用戶;基于前兩步記錄發(fā)布“營(yíng)銷文本”和“重復(fù)文本”的用戶黑名單。本發(fā)明的有益技術(shù)效果是:不局限于用一種手段實(shí)現(xiàn)社交媒體數(shù)據(jù)清洗,分步、多策略的對(duì)不同類型的垃圾文本實(shí)現(xiàn)過(guò)濾。對(duì)比單一的文本垃圾過(guò)濾和垃圾用戶識(shí)別方法,本發(fā)明具有更好的適用性,有更廣的應(yīng)用前景。 |
