基于文本相似度和微博頻道特征的博文排重方法

基本信息

申請?zhí)?/td> CN201510061278.4 申請日 -
公開(公告)號 CN104615714B 公開(公告)日 2019-05-24
申請公布號 CN104615714B 申請公布日 2019-05-24
分類號 G06F16/335(2019.01)I; G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 尹柳 申請(專利權(quán))人 北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司
代理機(jī)構(gòu) 北京安博達(dá)知識產(chǎn)權(quán)代理有限公司 代理人 北京中搜云商網(wǎng)絡(luò)技術(shù)有限公司
地址 100086 北京市海淀區(qū)北三環(huán)西路43號院2號樓5層08-09號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于文本相似度和微博頻道特征的博文排重方法,所述方法包括(1)加載詞庫;(2)根據(jù)標(biāo)識的頻道類型,判斷博文所屬頻道;(3)去噪;(4)計(jì)算特征向量;(5)分頻道計(jì)算相似度;(6)重復(fù)檢測。采用本發(fā)明進(jìn)行微博頻道排重,效果良好。擴(kuò)展同義詞特征,提高了相似度,彌補(bǔ)了傳統(tǒng)排重對于特征敏感度高,排重力度小的缺點(diǎn)。在一般去噪處理的基礎(chǔ)上,針對不同頻道的噪聲特點(diǎn),進(jìn)一步去噪,降低了干擾性。根據(jù)不同頻道不同特點(diǎn),采用不同的特征提取方法,提高了特征的準(zhǔn)確性和有效度。綜合決策相似度計(jì)算方法,相對于單一方法,漏排率低。