基于文本相似度和微博頻道特征的博文排重方法
基本信息
申請?zhí)?/td> | CN201510061278.4 | 申請日 | - |
公開(公告)號 | CN104615714B | 公開(公告)日 | 2019-05-24 |
申請公布號 | CN104615714B | 申請公布日 | 2019-05-24 |
分類號 | G06F16/335(2019.01)I; G06F17/27(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 尹柳 | 申請(專利權(quán))人 | 北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 北京安博達(dá)知識產(chǎn)權(quán)代理有限公司 | 代理人 | 北京中搜云商網(wǎng)絡(luò)技術(shù)有限公司 |
地址 | 100086 北京市海淀區(qū)北三環(huán)西路43號院2號樓5層08-09號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于文本相似度和微博頻道特征的博文排重方法,所述方法包括(1)加載詞庫;(2)根據(jù)標(biāo)識的頻道類型,判斷博文所屬頻道;(3)去噪;(4)計(jì)算特征向量;(5)分頻道計(jì)算相似度;(6)重復(fù)檢測。采用本發(fā)明進(jìn)行微博頻道排重,效果良好。擴(kuò)展同義詞特征,提高了相似度,彌補(bǔ)了傳統(tǒng)排重對于特征敏感度高,排重力度小的缺點(diǎn)。在一般去噪處理的基礎(chǔ)上,針對不同頻道的噪聲特點(diǎn),進(jìn)一步去噪,降低了干擾性。根據(jù)不同頻道不同特點(diǎn),采用不同的特征提取方法,提高了特征的準(zhǔn)確性和有效度。綜合決策相似度計(jì)算方法,相對于單一方法,漏排率低。 |
