一種基于機器學習的多特征文本數據相似度計算方法
基本信息
申請?zhí)?/td> | CN201810838529.9 | 申請日 | - |
公開(公告)號 | CN109145111A | 公開(公告)日 | 2019-01-04 |
申請公布號 | CN109145111A | 申請公布日 | 2019-01-04 |
分類號 | G06F16/35;G06F17/27;G06K9/62 | 分類 | 計算;推算;計數; |
發(fā)明人 | 陳磊 | 申請(專利權)人 | 深圳市翼海云峰科技有限公司 |
代理機構 | - | 代理人 | - |
地址 | 518000 廣東省深圳市福田區(qū)福田街道口岸社區(qū)福田南路38號廣銀大廈17層1716-05 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于機器學習的多特征文本數據相似度計算方法,使用文本矢量化算法將每條數據的每個特征轉化為一個矢量數組;將每條數據的多個特征生成的矢量數據進行拼接,正則化處理,并將所有數據的對應矢量數組組成一個矩陣;可選地使用PCA算法對上述矩陣進行降維;由業(yè)務專家在上述數據中標注出一系列相似數據對,每個數據對由兩條相似數據組成;基于上述相似數據對,計算出矢量距離映射矩陣,并基于該矩陣得到矢量距離計算公式;使用低精度聚合算法。該方法采用機器學習算法實現(xiàn)了多特征文本數據的距離計算,并使用低精度聚類方法降低了計算量,提升了算法性能。 |
