Hadoop多管道數(shù)據(jù)處理分析方法

基本信息

申請?zhí)?/td> CN201710347164.5 申請日 -
公開(公告)號 CN107193926A 公開(公告)日 2017-09-22
申請公布號 CN107193926A 申請公布日 2017-09-22
分類號 G06F17/30(2006.01)I;G06F9/50(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 林森;唐寧;馬娜 申請(專利權(quán))人 北京快友世紀科技股份有限公司
代理機構(gòu) - 代理人 -
地址 100020 北京市朝陽區(qū)東三環(huán)北路甲2號7幢315室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種Hadoop多管道數(shù)據(jù)處理分析方法,所述方法包括以下步驟:第一、利用外部設(shè)備輸入大數(shù)據(jù)文件;第二、分配事務(wù),MapReduce編程模型中的主程序節(jié)點分配子事務(wù),并將子事務(wù)通過網(wǎng)絡(luò)適配器遞交給空閑的工作機節(jié)點中;第三、生成鍵/值對,被分配了子事務(wù)的工作機節(jié)點讀取輸入的大數(shù)據(jù)文件,從中解析出鍵/值對,并調(diào)用用戶編寫的Map函數(shù)處理鍵/值對,并生成中間鍵/值對;第四、發(fā)送消息;第五、調(diào)用中間數(shù)據(jù),根據(jù)位置信息調(diào)用磁盤上的中間數(shù)據(jù),并對這些中間數(shù)據(jù)按照key值進行排序,相同的key值進行合并操作;第六、執(zhí)行Reduce函數(shù),Reduce子事務(wù)節(jié)點遍歷排序后的中間數(shù)據(jù),并將數(shù)據(jù)傳遞給用戶定義的Reduce函數(shù);第七、輸出結(jié)果。