一種基于流水線的分布式多表連接方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201710361245.0 | 申請日 | - |
公開(公告)號 | CN107229692A | 公開(公告)日 | 2017-10-03 |
申請公布號 | CN107229692A | 申請公布日 | 2017-10-03 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王宏志;孫旭冉;趙志強 | 申請(專利權(quán))人 | 工創(chuàng)集團有限公司 |
代理機構(gòu) | 北京格允知識產(chǎn)權(quán)代理有限公司 | 代理人 | 哈工大大數(shù)據(jù)產(chǎn)業(yè)有限公司 |
地址 | 150001 黑龍江省哈爾濱市經(jīng)開區(qū)哈平路集中區(qū)渤海路6號動漫基地F座509室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于流水線的分布式多表連接方法及系統(tǒng),其中方法包括并行執(zhí)行的以下步驟:映射處理單元從分布式文件系統(tǒng)讀取待連接表,將所述待連接表進行映射處理后得到對應(yīng)的數(shù)據(jù)塊,并以每兩個待連接表為一組輸出;第二規(guī)約處理單元按序讀取第二組至末尾組表的數(shù)據(jù)塊,并對每組表的兩個數(shù)據(jù)塊進行哈希連接得到每組表的兩表連接結(jié)果;第一規(guī)約處理單元讀取第一組表的兩個數(shù)據(jù)塊進行哈希連接后作為初始的多表連接結(jié)果,并在等待第二規(guī)約機器群完成一組表的哈希連接后,將當(dāng)前的多表連接結(jié)果與該組表的兩表連接結(jié)果進行順序連接,直至所有組表完成連接。本發(fā)明通過并行執(zhí)行的流水線,既實現(xiàn)了查詢操作時自適應(yīng)分割,又能快速高效的完成。 |
