基于海量圖數(shù)據(jù)的模型計算方法及裝置
基本信息
申請?zhí)?/td> | CN202011625560.8 | 申請日 | - |
公開(公告)號 | CN112711659A | 公開(公告)日 | 2021-04-27 |
申請公布號 | CN112711659A | 申請公布日 | 2021-04-27 |
分類號 | G06F16/335;G06F16/31;G06F16/27;G06F16/28 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 顧凌云;郭志攀;王偉;李海全 | 申請(專利權(quán))人 | 南京冰鑒信息科技有限公司 |
代理機構(gòu) | 成都頂峰專利事務(wù)所(普通合伙) | 代理人 | 錢學(xué)宇 |
地址 | 210000 江蘇省南京市鼓樓區(qū)中山北路99號11層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明的基于海量圖數(shù)據(jù)的模型計算方法及裝置,將待處理圖數(shù)據(jù)從圖數(shù)據(jù)庫JanusGraph導(dǎo)入到hive數(shù)據(jù)庫中得到數(shù)據(jù)節(jié)點列表和數(shù)據(jù)關(guān)系列表并確定每個數(shù)據(jù)節(jié)點及對應(yīng)的數(shù)據(jù)關(guān)系的連通圖id,基于連通圖id,聚合同一連通圖的數(shù)據(jù)并推送到hdfs存儲中,同時在聚合過程中保留好運行參數(shù)與聚合文件的映射并導(dǎo)入hive數(shù)據(jù)庫中,對預(yù)設(shè)線程參數(shù)進行調(diào)整得到目標(biāo)線程參數(shù)以進行數(shù)據(jù)處理得到數(shù)據(jù)處理結(jié)果。提前采用連通圖進行了數(shù)據(jù)拆分,為任務(wù)能夠并行做好了準(zhǔn)備,提前進行了數(shù)據(jù)篩選和數(shù)據(jù)轉(zhuǎn)換,減少了計算時的數(shù)據(jù)量,以及數(shù)據(jù)轉(zhuǎn)換使得數(shù)據(jù)安裝加載到內(nèi)存,將單機的模型python代碼簡單的修改轉(zhuǎn)換為spark代碼,能夠并行計算且根據(jù)計算資源以及任務(wù)的需求動態(tài)調(diào)整并行度。 |
