一種抽取用戶細(xì)粒度典型意見數(shù)據(jù)處理系統(tǒng)及方法
基本信息
申請?zhí)?/td> | CN201911353588.8 | 申請日 | - |
公開(公告)號 | CN111091000A | 公開(公告)日 | 2020-05-01 |
申請公布號 | CN111091000A | 申請公布日 | 2020-05-01 |
分類號 | G06F40/289;G06F40/295;G06F16/215;G06F16/25;G06K9/62;G06Q30/02 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 劉寶強(qiáng);肖云飛 | 申請(專利權(quán))人 | 深圳數(shù)闊信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 深圳市匯信知識產(chǎn)權(quán)代理有限公司 | 代理人 | 深圳視界信息技術(shù)有限公司 |
地址 | 518000 廣東省深圳市南山區(qū)粵海街道科技園社區(qū)高新中一道長園新材料港10棟1樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,公開了一種抽取用戶細(xì)粒度典型意見數(shù)據(jù)處理系統(tǒng)及方法,對數(shù)據(jù)進(jìn)行清洗,過濾掉噪聲數(shù)據(jù);對清洗后的數(shù)據(jù)進(jìn)行分字,分詞;使用詞嵌入模型訓(xùn)練字向量、詞向量表示,生成相應(yīng)的文件;定義產(chǎn)品常見屬性;抽取用戶評論中與產(chǎn)品相關(guān)的屬性;將所有抽取到的屬性文本采用字向量加權(quán)求平均值的方法轉(zhuǎn)換為向量表示;對文本進(jìn)行聚類;得到產(chǎn)品不同屬性的用戶典型意見。本發(fā)明抽取出用戶評論中與產(chǎn)品相關(guān)的屬性文本,將相同屬性、相同情感傾向的文本盡可能地聚到同一簇中,得到不同屬性的用戶典型意見。有效地提高了聚類結(jié)果的準(zhǔn)確性,并使得聚類結(jié)果的顆粒度更小,快速得到用戶對產(chǎn)品不同屬性的典型意見。 |
