一種基于流水線的分布式多表連接方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201710361245.0 申請日 -
公開(公告)號 CN107229692A 公開(公告)日 2017-10-03
申請公布號 CN107229692A 申請公布日 2017-10-03
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王宏志;孫旭冉;趙志強 申請(專利權(quán))人 工創(chuàng)集團有限公司
代理機構(gòu) 北京格允知識產(chǎn)權(quán)代理有限公司 代理人 哈工大大數(shù)據(jù)產(chǎn)業(yè)有限公司
地址 150001 黑龍江省哈爾濱市經(jīng)開區(qū)哈平路集中區(qū)渤海路6號動漫基地F座509室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于流水線的分布式多表連接方法及系統(tǒng),其中方法包括并行執(zhí)行的以下步驟:映射處理單元從分布式文件系統(tǒng)讀取待連接表,將所述待連接表進行映射處理后得到對應(yīng)的數(shù)據(jù)塊,并以每兩個待連接表為一組輸出;第二規(guī)約處理單元按序讀取第二組至末尾組表的數(shù)據(jù)塊,并對每組表的兩個數(shù)據(jù)塊進行哈希連接得到每組表的兩表連接結(jié)果;第一規(guī)約處理單元讀取第一組表的兩個數(shù)據(jù)塊進行哈希連接后作為初始的多表連接結(jié)果,并在等待第二規(guī)約機器群完成一組表的哈希連接后,將當(dāng)前的多表連接結(jié)果與該組表的兩表連接結(jié)果進行順序連接,直至所有組表完成連接。本發(fā)明通過并行執(zhí)行的流水線,既實現(xiàn)了查詢操作時自適應(yīng)分割,又能快速高效的完成。