Hadoop分布式文件系統(tǒng)針對日志型小文件的存儲和處理方法

基本信息

申請?zhí)?/td> CN201510137574.8 申請日 -
公開(公告)號 CN104731921B 公開(公告)日 2018-03-30
申請公布號 CN104731921B 申請公布日 2018-03-30
分類號 G06F17/30 分類 計算;推算;計數(shù);
發(fā)明人 徐銳;劉斌;臺憲青 申請(專利權(quán))人 北京科電高技術(shù)有限公司
代理機構(gòu) 無錫市大為專利商標事務(wù)所(普通合伙) 代理人 曹祖良;韓鳳
地址 214135 江蘇省無錫市新區(qū)菱湖大道200號中國傳感網(wǎng)國際創(chuàng)新園C座
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及計算機HDFS分布式文件系統(tǒng)領(lǐng)域,公開了一種HDFS針對日志型小文件的存儲和處理方法,將文件按物理位置就近合并,同時使用Copy?On?Write機制優(yōu)化小文件的讀寫。具體為,將日志型小文件按照物理路徑就近合并,客戶端讀寫日志型小文件時先從名字節(jié)點NameNode讀取合并文件和合并文件索引的元數(shù)據(jù)Metadata信息,然后根據(jù)合并文件索引從合并文件中讀寫各個日志型小文件數(shù)據(jù)。本發(fā)明針對日志型小文件,提出了一種新的處理方法,該方法將小文件metadata的內(nèi)存負擔從NameNode轉(zhuǎn)移到了客戶端,有效的解決了HDFS處理大量小文件的低效問題??蛻舳司彺嫘∥募etadata也使得小文件的訪問得到加速,多次連續(xù)訪問物理位置臨近的小文件時無需向NameNode請求metadata。