一種推廣信息的檢測(cè)方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201710113764.5 申請(qǐng)日 -
公開(公告)號(hào) CN106909669B 公開(公告)日 2020-02-11
申請(qǐng)公布號(hào) CN106909669B 申請(qǐng)公布日 2020-02-11
分類號(hào) G06F16/9535;G06F16/335 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張德斌 申請(qǐng)(專利權(quán))人 北京時(shí)間有限公司
代理機(jī)構(gòu) 北京市浩天知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 宋菲;劉蘭蘭
地址 100089 北京市海淀區(qū)西三環(huán)北路3號(hào)一區(qū)1號(hào)樓7層710
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種推廣信息的檢測(cè)方法及裝置,其涉及文本過濾處理技術(shù)領(lǐng)域,該方法包括:獲取預(yù)設(shè)的樣本集合,提取樣本集合中的各個(gè)樣本所包含的信息單元;統(tǒng)計(jì)每個(gè)信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預(yù)設(shè)的第一閾值的信息單元確定為候選特征單元;針對(duì)每個(gè)候選特征單元,分別統(tǒng)計(jì)該候選特征單元在各個(gè)文檔位置的分布情況,根據(jù)統(tǒng)計(jì)結(jié)果確定該候選特征單元是否為推廣特征單元;根據(jù)已確定的推廣特征單元檢測(cè)文檔中包含的推廣信息。由此可見,本發(fā)明能夠有效且準(zhǔn)確地過濾廣告信息或垃圾推廣信息的效果,使得采用機(jī)器抓取方法也能提取到純凈的新聞內(nèi)容,極大地提高了匯編自媒體平臺(tái)新聞的效率。