欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

產品壹佰 ? 6年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

HDFS作為Hadoop生態系統的分布式文件系統，它被設計用來存儲海量數據，特別是TB、PB量級別的數據。它的設計的初衷也是存儲大文件，而如果HDFS上存在大量的小文件，會對系統性能帶來嚴重的問題。本文想跟大家聊下小文件的處理。

本文的小文件是指那些大小比HDFS的block (Hadoop 2.x的默認大小128MB)小的多的文件。在HDFS中，文件元信息，例如位置、大小、分塊信息等這些存儲在Namenode的內存中，每一個object占用150 bytes的內存。文件個數越多相應的也會占用Namenode更多的內存。何況HDFS主要是為了流式的訪問大文件而設計的，讀取眾多的小文件顯然也是非常低效的。

▌Hadoop小文件的3類常見情況的處理

1、HDFS中存儲包含了大量小文件

現象：在HDFS上已經存在了大量的小文件和目錄。

方案：通過調用HDFS的sync()方法和append()方法，將小文件和目錄每隔一定時間生成一個大文件，或者可以通過寫程序來合并這些小文件。

2、MapReduce的輸入包含大量小文件

現象：輸入文件中存在大量的小文件

MapReduce程序的Map任務（task）一次可以處理一個塊（block）大小的輸入數據（默認使用FileInputFormat）。如果一個輸入文件的大小大于block，那么會拆成兩個或多個task進行處理；如果小于block，也會用一個task處理該文件。需要處理的數據如果分散存儲在許多小文件中，就會產生大量的map task，如果小文件個數非常多，這會使處理時間變的很慢。

方案：有3種

1）Hadoop Archive:

Hadoop Archive是一個高效地將小文件放入HDFS塊中的文件存檔工具，它能夠將許多小文件打包成一個HAR文件，這樣會同時減少Namenode的內存使用。

2）Sequence File：

Sequence File由一系列的二進制key/value組成，如果key為小文件名，value為文件內容，則可以將大批小文件合并成一個大文件。

1）和2）這里不做介紹，可以參考 ??

http://blog.cloudera.com/blog/2009/02/the-small-files-problem

3）CombineFileInputFormat：

Hadoop有一個專門的類CombineFileInputFormat?來處理小文件，它根據一定的規則，將HDFS上多個小文件合并到一個InputSplit中，同時啟動適量的Map來處理這里面的文件，以減少MR整體作業的運行時間。CombineFileInputFormat類繼承FileInputFormat，主要重寫了ListgetSplits(JobContext var1)方法，我們可以設置mapreduce.input.fileinputformat.split.minsize.per.node、mapreduce.input.fileinputformat.split.minsize.per.rack和mapreduce.input.fileinputformat.split.maxsize?參數的設置來合并小文件。其中mapreduce.input.fileinputformat.split.maxsize參數至關重要，如果沒有設置這個參數（默認沒設置），那么同一個機架上的所有小文件將組成一個InputSplit，最終由一個Map Task來處理。如果設置了這個參數，那么同一個節點（node）上的文件將會組成一個InputSplit。

InputSplit包含的HDFS塊信息存儲在CombineFileSplit?類中。該類包含了每個塊文件的路徑、起始偏移量、相對于原始偏移量的大小和這個文件的存儲節點。CombineTextInputFormat告訴MR程序如何讀取組合的InputSplit，具體如何解析CombineFileSplit中的文件主要在CombineFileRecordReader中實現。該類封裝了TextInputFormat的RecordReader，并對CombineFileSplit中的多個文件循環遍歷并讀取其中的內容。

樣例代碼如下：螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后日志輸出：
可以從日志中很清楚的看出input文件數為Total input paths to process : 152，通過CombineFileInputFormat處理后splits為mapreduce.JobSubmitter: number of splits:1，map數為Launched map tasks=1。可以修改mapreduce.input.fileinputformat.split.maxsize參數，觀察Map Task的個數變化。

3、Hive小文件問題

現象1：?hive輸入的文件過多

方案：設置mapper?輸入文件合并參數

螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

現象2：hive執行中間過程生成的文件過多

方案：設置中間過程合并參數，盡量避免小文件螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

現象3：hive輸出結果生成的文件過多

方案：一種是調整reducer個數，另一種是調整reducer大小螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

/ 參考文章 /

1、https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

2、https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

3、http://blog.cloudera.com/blog/2009/02/the-small-files-problem/

隨意打賞

大數據展示大數據采集

用算力解構想象邊界，博大數據高輝亮相第十五屆北京國際電影節

砍柴網 ? 2分鐘前

當全息粒子在舞臺中央精準復刻真人形象的細膩表演，動態情感映射技術將歌曲頻率幻化為流動的光影矩陣，科技與藝術的交融正以震撼視覺的方式，重塑文娛產業的創新邊界。近日，第十五屆北京國際電影節盛大啟幕，一場聚焦電影、科技、藝術、教育、產業等多維領域的跨界盛會正在上映。在“無界∞沉浸”單元中
空間的想象力源于空間的大數據，看如視如何持續領航空間智能

砍柴網 ? 3天前

自2019年如視正式對外發布AI講房,并在房產行業大規模應用AI講房起,如視便開始了在AI領域的探索和深入。這一創新應用不僅是如視AI技術的起點,更開啟了數字空間智能化革命的序幕: 空間不再是被觀察的客體,而是可計算、可思考、可對話的智能主體。如視作為空間數字化領域的領導者,始終在回答一個問題:如何讓
云知聲與宜興大數據簽署合作協議，為江蘇智慧康養添 “新翼”

砍柴網 ? 9天前

近日，江蘇云知聲科技有限公司（簡稱“云知聲”）與宜興市大數據發展有限公司（簡稱“大數據公司”）簽署合作協議，攜手推動區域數字化協同發展，共同構建數字經濟發展新格局。大數據公司董事長沈建民、云知聲副總裁吳恒代表雙方簽署協議。宜興市人民政府副市長楊中浩、宜興市數據局
數位大數據旗下“上上參謀”企業如何利用大模型AI技術實現商業躍進

砍柴網 ? 16天前

商業決策垂類大模型備受關注近年來，隨著人工智能技術的快速發展和越來越多先進AI技術的涌現，AI大模型技術正在推動各行各業邁向智能化新階段。與通用大模型不同的垂類大模型更專注于特定領域，通過深度學習海量專業數據，在細分場景中展現出強大的應用價值，更精準的解決行業痛點。例如，在醫
2025年貴陽貴安大數據工作會議召開

數據觀 ? 1月前

3月14日，2025年貴陽貴安大數據工作會議在貴陽召開。會議以習近平新時代中國特色社會主義思想為指導，全面貫徹落實黨的二十大和二十屆二中、三中全會精神，深入學習貫徹習近平總書記視察貴州重要講話精神，以及全國數據工作會議、全省大數據工作會議精神，全面總結2024年貴陽貴安大數據發展工作，研究部署2025年重點任務。貴陽市
我來數科：通過大數據與人工智能技術打造安全便捷的金融服務平臺

砍柴網 ? 1月前

在金融科技加速變革下，風控體系成為金融機構發展的關鍵支撐。隨著監管政策趨嚴，個人信息保護、數據安全、機構合規性等要求不斷提升，促使行業進一步加強風控體系的構建與升級。我來數科作為深耕金融科技領域的平臺，始終走在風控技術前沿，以大數據和人工智能為核心，打造全方位的風險管理體系，為用
市場監管總局回應大數據殺熟

i黑馬 ? 1月前

3月5日，國家市場監督管理總局局長羅文表示，今年將著力優化監管方式方法，大力促進平臺經濟健康發展。當前，外賣騎手等新就業群體和消費者都反映，平臺企業存在三個問題。一是算法不透明，二是大數據殺熟，三是刷單炒信。針對上述問題，市場監管部門將積極配合有關部門，加強綜合治理，督促平臺企業提高算法透明度，優化算法規則，切實有力地
貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓

數據觀 ? 1月前

為全面提升貴陽貴安數治能力和水平，建設更高水平的數字貴陽貴安，推動人工智能賦能在全省走前列、作表率。3月4日，貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓，邀請貴州大數據集團云智事業部副總經理陸嘉達博士作“大模型DeepSeek的技術與應用”專題培訓。貴陽市大數據局副局長徐先文主持會議，各區（市、縣、開發區
白鴿在線攜手鹽城大數據集團以科技守護百姓財產安全

砍柴網 ? 1月前

信息化時代,電信網絡詐騙案件持續多發高發,手段日益復雜、新騙術層出不窮,給人民群眾的財產安全帶來了巨大威脅,加強反詐宣傳工作亟不可待。為守護百姓的“錢袋子”,近日, 白鴿在線聯合鹽城市大數據集團、鹽城市公安局鹽南分局及華農財險,共同發起“數智反詐守護幸福”大型反詐公益項目 ,攜手構建“政企保
醫渡科技六度蟬聯醫療大數據企業榜首，以“YiduCore+DeepSeek”重構醫療智能生態

砍柴網 ? 1月前

近日,《2024醫療大數據企業排行榜》發布,醫渡科技連續第六年摘得行業榜首桂冠,再次證明了其在中國醫療人工智能和大數據領域的優勢地位。該榜單由中國科學院主管的權威媒體《互聯網周刊》聯合德本咨詢、中國社會科學院信息化研究中心每年評選,具有極高的權威性和
Hadoop大數據“存算分離”，柏科數據 ISCloud分布式存儲"提質增效"

砍柴網 ? 3年前

數據湖的發展契機，來源于近年來的AI熱潮和云計算、5G的發展，在日益發展的海量數據時代，數據已成為企業發展的核心資產，通過構建適用于大數據的底層架構，圍繞Hadoop提供語義一致性、數據治理和安全性。Hadoop作為數據湖最常用的解決方案之一，其的部署和需求仍然很大并且正在增長。在最近的一項涉及235名受訪者的調查中，
Hadoop大數據存算分離，杉巖MOS知你所想

砍柴網 ? 3年前

大數據經過了多年的發展，以Hadoop生態為核心的大數據框架已經十分成熟，這個過程伴隨著對存儲需求的不斷變化，從而演進出了數據湖的概念以及在數據湖存儲方面的幾個新需求特征：如數據的分布組織與元數據的高效管理；存儲和計算分離，大幅降低成本；數據全生命周期管理；多訪問協議支持達到All in One的存儲能力；具備數據的智
星環科技孫元浩：用自研框架取代Hadoop，加速實現基礎軟件國產化替代數字觀察

砍柴網 ? 5年前

2019年將近尾聲,談到截止目前,2019年星環科技所取得成績,創始人孫元浩做了一些簡單的總結。 “第一,從產品線來說,從2017年開始,星環科技已經基本確定三條產品線,大數據產品是主要產品線,而人工智能機器學習平臺和容器的智能大數據云平臺,是圍繞客戶在使用大數據基礎軟件的基礎需求上
Hadoop，涼了？

億歐網 ? 5年前

【編者按】雖然大數據依然如日中天，但該領域曾經的領頭羊 Cloudera 、Hortonworks 和 MapR 三家公司最近卻步履蹣跚，多少掩蓋了其幾分風光。Cloudera 和 Hortonworks 合并，而 MapR 開始裁員。與此同時，大數據領域的 Elastic 、Mongo
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

砍柴網 ? 5年前

Tom Reilly, chief executive officer of Cloudera Inc. 今年6月6日，Hadoop 商業公司Cloudera突然暴跌了40%，一時間引發了大家激烈的討論，在這些討論之中，最具代表性的觀點便是Cloudera的暴跌代表著Hadoop的隕落。
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

鈦媒體 ? 5年前

Tom Reilly, chief executive officer of Cloudera Inc.文｜郭華今年6月6日，Hadoop商業公司Cloudera突然暴跌了40%，一時間引發了大家激烈的討論，在這些討論之中，最具代表性的觀點便是Cloudera的暴跌代表著Hadoop的隕落。但我認為Cloudera的暴
技術干貨：SQL on Hadoop在快手大數據平臺的實踐與優化

創見網 ? 5年前

快手大數據架構工程師鐘靚近日在 A2M 人工智能與機器學習創新峰會分享了題為《SQL on Hadoop 在快手大數據平臺的實踐與優化》的演講，主要從 SQL on Hadoop 介紹、快手 SQL on Hadoop 平臺概述、SQL on Hadoop 在快手的使用經驗和改進分析、快手 SQL on Ha
曾推出Hadoop卻迅速消失，雅虎研究院是如何在10年間衰落的？

IT思維 ? 6年前

公眾號/AI前線策劃編輯｜蔡芳芳作者｜洪亮劼編輯｜Debra AI 前線導讀：雅虎是最早成功的互聯網公司之一，也是最早意識到需要把基礎研究，特別是機器學習以及人工智能研究，應用到實際產品中的公司。雅虎從很早就開始招聘和培養研究型人才，雅虎研究院就是在這個過程中應運而生的。本文將說
Cloudera和Hortonworks合并，Hadoop將走向何方？

億歐網 ? 6年前

【編者按】在開源已經逐漸成為一種政治正確的時候，開源項目最終會走向哪里？本文針對Cloudera和Hortonworks的宣布合并一事進行發問，回溯 Hadoop 的商業化和合并前后歷程，試圖尋找這一答案。本文首發于IT經理世界，作者李昊原；

評論

提交建議