一種推廣信息的檢測(cè)方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201710113764.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106909669B | 公開(公告)日 | 2020-02-11 |
申請(qǐng)公布號(hào) | CN106909669B | 申請(qǐng)公布日 | 2020-02-11 |
分類號(hào) | G06F16/9535;G06F16/335 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張德斌 | 申請(qǐng)(專利權(quán))人 | 北京時(shí)間有限公司 |
代理機(jī)構(gòu) | 北京市浩天知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 宋菲;劉蘭蘭 |
地址 | 100089 北京市海淀區(qū)西三環(huán)北路3號(hào)一區(qū)1號(hào)樓7層710 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種推廣信息的檢測(cè)方法及裝置,其涉及文本過濾處理技術(shù)領(lǐng)域,該方法包括:獲取預(yù)設(shè)的樣本集合,提取樣本集合中的各個(gè)樣本所包含的信息單元;統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元;針對(duì)每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元;根據(jù)已確定的推廣特征單元檢測(cè)文檔中包含的推廣信息。由此可見,本發(fā)明能夠有效且準(zhǔn)確地過濾廣告信息或垃圾推廣信息的效果,使得采用機(jī)器抓取方法也能提取到純凈的新聞內(nèi)容,極大地提高了匯編自媒體平臺(tái)新聞的效率。 |
