一種基于機器學習的多特征文本數據相似度計算方法

基本信息

申請?zhí)?/td> CN201810838529.9 申請日 -
公開(公告)號 CN109145111A 公開(公告)日 2019-01-04
申請公布號 CN109145111A 申請公布日 2019-01-04
分類號 G06F16/35;G06F17/27;G06K9/62 分類 計算;推算;計數;
發(fā)明人 陳磊 申請(專利權)人 深圳市翼海云峰科技有限公司
代理機構 - 代理人 -
地址 518000 廣東省深圳市福田區(qū)福田街道口岸社區(qū)福田南路38號廣銀大廈17層1716-05
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于機器學習的多特征文本數據相似度計算方法,使用文本矢量化算法將每條數據的每個特征轉化為一個矢量數組;將每條數據的多個特征生成的矢量數據進行拼接,正則化處理,并將所有數據的對應矢量數組組成一個矩陣;可選地使用PCA算法對上述矩陣進行降維;由業(yè)務專家在上述數據中標注出一系列相似數據對,每個數據對由兩條相似數據組成;基于上述相似數據對,計算出矢量距離映射矩陣,并基于該矩陣得到矢量距離計算公式;使用低精度聚合算法。該方法采用機器學習算法實現(xiàn)了多特征文本數據的距離計算,并使用低精度聚類方法降低了計算量,提升了算法性能。