基于文本挖掘的互聯(lián)網(wǎng)媒體用戶屬性分析方法

基本信息

申請?zhí)?/td> CN201510444180.7 申請日 -
公開(公告)號 CN104991968B 公開(公告)日 2018-04-20
申請公布號 CN104991968B 申請公布日 2018-04-20
分類號 G06F17/30;G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 王飛;張國鴻;張何君 申請(專利權(quán))人 成都云堆移動信息技術(shù)有限公司
代理機構(gòu) 北京天奇智新知識產(chǎn)權(quán)代理有限公司 代理人 郭霞
地址 610041 四川省成都市高新區(qū)府城大道西段399號5棟1單元12層1-3號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于文本挖掘的互聯(lián)網(wǎng)媒體用戶屬性分析方法,包括如下步驟:(1)文本挖掘:1.1:創(chuàng)建標(biāo)簽主語料庫;1.2:創(chuàng)建特征語料庫;1.3:語料庫更新維護;(2)獲取互聯(lián)媒體網(wǎng)用戶屬性集合:2.1:抽取互聯(lián)網(wǎng)媒體用戶全量歷史文章樣本并清洗;2.2:對樣本進行處理,得出噪音值;2.3:將噪音值與閾值a作比較,噪音值小于閾值a,則進行模型分類形成互聯(lián)網(wǎng)媒體用戶屬性集合。通過本發(fā)明不僅能分析挖掘用戶基本屬性,識別用戶屬性的應(yīng)用范圍大大擴大,而且還可以分析互聯(lián)網(wǎng)媒體用戶的基本屬性,能對互聯(lián)網(wǎng)媒體用戶的全方位屬性提供支持,不僅具有廣泛的商業(yè)應(yīng)用價值,也為互聯(lián)網(wǎng)媒體用戶標(biāo)簽的挖掘算法和知識圖譜的應(yīng)用指明了研究方向。