Hadoop分布式文件系統(tǒng)針對日志型小文件的存儲和處理方法
基本信息
申請?zhí)?/td> | CN201510137574.8 | 申請日 | - |
公開(公告)號 | CN104731921B | 公開(公告)日 | 2018-03-30 |
申請公布號 | CN104731921B | 申請公布日 | 2018-03-30 |
分類號 | G06F17/30 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 徐銳;劉斌;臺憲青 | 申請(專利權(quán))人 | 北京科電高技術(shù)有限公司 |
代理機構(gòu) | 無錫市大為專利商標事務(wù)所(普通合伙) | 代理人 | 曹祖良;韓鳳 |
地址 | 214135 江蘇省無錫市新區(qū)菱湖大道200號中國傳感網(wǎng)國際創(chuàng)新園C座 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及計算機HDFS分布式文件系統(tǒng)領(lǐng)域,公開了一種HDFS針對日志型小文件的存儲和處理方法,將文件按物理位置就近合并,同時使用Copy?On?Write機制優(yōu)化小文件的讀寫。具體為,將日志型小文件按照物理路徑就近合并,客戶端讀寫日志型小文件時先從名字節(jié)點NameNode讀取合并文件和合并文件索引的元數(shù)據(jù)Metadata信息,然后根據(jù)合并文件索引從合并文件中讀寫各個日志型小文件數(shù)據(jù)。本發(fā)明針對日志型小文件,提出了一種新的處理方法,該方法將小文件metadata的內(nèi)存負擔從NameNode轉(zhuǎn)移到了客戶端,有效的解決了HDFS處理大量小文件的低效問題??蛻舳司彺嫘∥募etadata也使得小文件的訪問得到加速,多次連續(xù)訪問物理位置臨近的小文件時無需向NameNode請求metadata。 |
