基于Spark的節(jié)點(diǎn)相似度計(jì)算方法、裝置及終端

基本信息

申請(qǐng)?zhí)?/td> CN201810811936.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110751161A 公開(kāi)(公告)日 2020-02-04
申請(qǐng)公布號(hào) CN110751161A 申請(qǐng)公布日 2020-02-04
分類(lèi)號(hào) G06K9/62 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 魏紅亮 申請(qǐng)(專(zhuān)利權(quán))人 優(yōu)視科技(中國(guó))有限公司
代理機(jī)構(gòu) 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 代理人 楊澤;劉芳
地址 510000 廣東省廣州市天河區(qū)黃埔大道西平云路163號(hào)廣電平云廣場(chǎng)B塔13層自編01單元
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例提供一種基于Spark的節(jié)點(diǎn)相似度計(jì)算方法、裝置及終端,方法包括:獲取待處理的二部圖中的節(jié)點(diǎn)數(shù)據(jù),對(duì)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行序列化處理;根據(jù)處理后的節(jié)點(diǎn)數(shù)據(jù)生成概率轉(zhuǎn)移矩陣和相似度矩陣;對(duì)概率轉(zhuǎn)移矩陣和相似度矩陣進(jìn)行多級(jí)自適應(yīng)分片迭代處理,獲得中間結(jié)果矩陣;將中間結(jié)果矩陣與預(yù)先設(shè)置的衰減系數(shù)做乘積運(yùn)算,獲得最終結(jié)果矩陣;根據(jù)最終結(jié)果矩陣獲得節(jié)點(diǎn)之間的相似度。本發(fā)明提供的技術(shù)方案,具體為一種基于Spark的大規(guī)模矩陣乘法算法,能夠?qū)?shù)據(jù)進(jìn)行多級(jí)自適應(yīng)分片,并可以將Simrank計(jì)算公式過(guò)程拆分為兩部分,降低了計(jì)算規(guī)模和中間數(shù)據(jù)存儲(chǔ)規(guī)模;從而能夠高效地計(jì)算億級(jí)別節(jié)點(diǎn)之間的相似度。