基于海量圖數(shù)據(jù)的模型計算方法及裝置

基本信息

申請?zhí)?/td> CN202011625560.8 申請日 -
公開(公告)號 CN112711659A 公開(公告)日 2021-04-27
申請公布號 CN112711659A 申請公布日 2021-04-27
分類號 G06F16/335;G06F16/31;G06F16/27;G06F16/28 分類 計算;推算;計數(shù);
發(fā)明人 顧凌云;郭志攀;王偉;李海全 申請(專利權(quán))人 南京冰鑒信息科技有限公司
代理機構(gòu) 成都頂峰專利事務(wù)所(普通合伙) 代理人 錢學(xué)宇
地址 210000 江蘇省南京市鼓樓區(qū)中山北路99號11層
法律狀態(tài) -

摘要

摘要 本發(fā)明的基于海量圖數(shù)據(jù)的模型計算方法及裝置,將待處理圖數(shù)據(jù)從圖數(shù)據(jù)庫JanusGraph導(dǎo)入到hive數(shù)據(jù)庫中得到數(shù)據(jù)節(jié)點列表和數(shù)據(jù)關(guān)系列表并確定每個數(shù)據(jù)節(jié)點及對應(yīng)的數(shù)據(jù)關(guān)系的連通圖id,基于連通圖id,聚合同一連通圖的數(shù)據(jù)并推送到hdfs存儲中,同時在聚合過程中保留好運行參數(shù)與聚合文件的映射并導(dǎo)入hive數(shù)據(jù)庫中,對預(yù)設(shè)線程參數(shù)進行調(diào)整得到目標(biāo)線程參數(shù)以進行數(shù)據(jù)處理得到數(shù)據(jù)處理結(jié)果。提前采用連通圖進行了數(shù)據(jù)拆分,為任務(wù)能夠并行做好了準(zhǔn)備,提前進行了數(shù)據(jù)篩選和數(shù)據(jù)轉(zhuǎn)換,減少了計算時的數(shù)據(jù)量,以及數(shù)據(jù)轉(zhuǎn)換使得數(shù)據(jù)安裝加載到內(nèi)存,將單機的模型python代碼簡單的修改轉(zhuǎn)換為spark代碼,能夠并行計算且根據(jù)計算資源以及任務(wù)的需求動態(tài)調(diào)整并行度。