一種垃圾文本識(shí)別方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010040291.2 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111209744A | 公開(kāi)(公告)日 | 2020-05-29 |
申請(qǐng)公布號(hào) | CN111209744A | 申請(qǐng)公布日 | 2020-05-29 |
分類(lèi)號(hào) | G06F40/279;G06F40/242 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 劉星辰;陳曉峰;麻沁甜 | 申請(qǐng)(專(zhuān)利權(quán))人 | 上海勃池信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 上海領(lǐng)洋專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 上海勃池信息技術(shù)有限公司 |
地址 | 200000 上海市嘉定區(qū)匯源路55號(hào)8幢5層517室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種垃圾文本識(shí)別方法,包括以下步驟:將待識(shí)別文本進(jìn)行分詞預(yù)處理,得到特征詞文本;對(duì)待識(shí)別文本的每個(gè)特征詞,計(jì)算該特征詞的特征貢獻(xiàn)比,垃圾文本識(shí)別系統(tǒng)對(duì)特征詞進(jìn)行識(shí)別,得到待識(shí)別文本的特征貢獻(xiàn)比;通過(guò)待識(shí)別文本的特征貢獻(xiàn)比和預(yù)設(shè)標(biāo)準(zhǔn)可以確定出該文本是否為垃圾文本,并可進(jìn)一步對(duì)判定的垃圾文本采取一定的預(yù)防措施,從而能夠避免垃圾文本對(duì)人們?nèi)粘I顜?lái)不利影響。 |
