開源平臺(tái)Cloudera暴跌40%,Hadoop不行了嗎?
Tom Reilly, chief executive officer of Cloudera Inc.
今年6月6日,Hadoop 商業(yè) 公司Cloudera突然暴跌了40%,一時(shí)間引發(fā)了大家激烈的討論,在這些討論之中,最具代表性的觀點(diǎn)便是Cloudera的暴跌代表著Hadoop的隕落。
但我認(rèn)為Cloudera的暴跌與Hadoop無關(guān)。
健康的Hadoop
Hadoop現(xiàn)在還是非常健康的。
圖1 Hadoop大數(shù)據(jù)分析市場(chǎng)情況
首先,我們看一下Hadoop的市場(chǎng)情況,根據(jù)statista的測(cè)算,2019年全球Hadoop和大數(shù)據(jù)市場(chǎng)規(guī)模約在340億美金左右,且5年復(fù)合年增長(zhǎng)率高達(dá)28.5%——從這點(diǎn)看,Hadoop沒有衰落的跡象。
其次,我們?cè)倏匆幌卢F(xiàn)在最火的云計(jì)算廠商的情況,打開他們的產(chǎn)品頁,我們看一看對(duì)大數(shù)據(jù)怎么想:
圖2 四大云廠商Hadoop情況
從圖2可以看到,不管是Amazon的EMR、谷歌的Dataproc還是阿里云的E-MapReduce和Azure的HDInsight,四大云廠商無一例外都選擇了Hadoop,而且均占據(jù)了其產(chǎn)品頁頭部的位置,這足以說明Hadoop在云廠商心目中的地位——從這點(diǎn)看,Hadoop也沒有衰落的跡象。
然后,我們?cè)倏匆幌翲adoop本身。
圖3 Hadoop生態(tài) from oreilly.com
Hadoop從2006年發(fā)布以來,不僅點(diǎn)燃了大數(shù)據(jù)的熱火,自身也在熱火中逐漸發(fā)展壯大,從一個(gè)軟件變成了一個(gè)生態(tài)。在HDFS和YARN基礎(chǔ)上長(zhǎng)出來一系列大名鼎鼎的軟件,這里邊既有老牌的Hive和Hbase,也有熱度正在攀升的Spark和Flink,總體接近四十多個(gè),從實(shí)踐中看,Hadoop仍然是企業(yè)大數(shù)據(jù)處理系統(tǒng)最佳甚至唯一的選擇——從這點(diǎn)看,Hadoop也沒有衰落的跡象。
最后,我們?cè)賮砜纯凑衅敢螅湍弥袊?guó)最頂尖的這部分公司為例,比如百度、阿里、騰訊、頭條、美團(tuán)、滴滴、網(wǎng)易等,這些公司對(duì)大數(shù)據(jù)工程師的要求第一點(diǎn)便是Hadoop。看完這些JD,毫不夸張的說,如果你是候選人而只讓你選一門技術(shù)做準(zhǔn)備,那一定是Hadoop——從這點(diǎn)看,Hadoop也沒有衰落的跡象。
圖4 各大公司招聘要求
說Hadoop衰落的人提了一些論點(diǎn),其中最有價(jià)值的便是S3正在動(dòng)搖Hadoop的HDFS,K8S正在動(dòng)搖Hadoop的YARN。HDFS和YARN是Hadoop的根基,根基受到挑戰(zhàn),Hadoop將會(huì)淪陷。
但我們看一下Hadoop的歷史就會(huì)發(fā)現(xiàn)它從來不缺挑戰(zhàn),比如Spark,當(dāng)時(shí)號(hào)稱比Hadoop快一百倍,后來仍然成了Hadoop生態(tài)中的一部分,跟Hadoop和諧共生。而且當(dāng)時(shí)Hadoop才出來沒多久,考慮到已經(jīng)在各大公司部署的龐大Hadoop集群,現(xiàn)在看到K8S和S3就說Hadoop要衰亡,這就有點(diǎn)為時(shí)過早了。
Cloudera怎么了?
如果說Hadoop沒問題,那Cloudera暴跌是怎么回事呢?
我們先看這次暴跌發(fā)生的時(shí)間點(diǎn)。
這次暴跌發(fā)生在Cloudera 現(xiàn)任 CEO?Reilly宣布辭職,并公布了FY20 的第一季度財(cái)報(bào)之后。
Cloudera在財(cái)報(bào)里表示其營(yíng)收略低于預(yù)期(預(yù)期$188M,完成$187M),并且也調(diào)低了FY20營(yíng)收預(yù)期,從$835M - $855M降到了$745M - $765M,對(duì)應(yīng)的年增長(zhǎng)降到了0%-10%。
有人說這種增長(zhǎng)率顯然對(duì)一個(gè)新技術(shù)公司來說太低了,是這次暴跌的主要原因。
但我認(rèn)為這并不充分。
Cloudera在今年1月的時(shí)候剛剛完成了與Hortonworks的合并,這種合并必然需要一段時(shí)間的調(diào)整期,所以財(cái)務(wù)情況跟預(yù)期略有出入也不是特別意外。
那是不是說這次暴跌是黑天鵝事件,Cloudera本身是沒問題的嗎?
當(dāng)然不是,Cloudera有問題,而且很大。
它既有遠(yuǎn)慮,也有近憂。
先說近憂。
前面提到Cloudera和Hortonworks在今年1月份進(jìn)行了合并(合并后還叫Cloudera),而兩者都是Hadoop商業(yè)服務(wù)公司,各自在Hadoop基礎(chǔ)上都有了自己的產(chǎn)品線,Cloudera的產(chǎn)品叫CDH,Hortonworks的產(chǎn)品叫HDP。
所以合并之后第一個(gè)問題便是新公司的產(chǎn)品策略是什么。
圖5 Cloudera產(chǎn)品策略
Cloudera CPO Arun Murthy 是這樣說的:Cloudera會(huì)在2022年前繼續(xù)支持CDH和HDP兩條產(chǎn)品線,同時(shí)也正在開發(fā)新的整合產(chǎn)品——CDP(Cloudera Data Platform)。CDP分兩個(gè)版本,第一版基于CDH6和HDP3,目標(biāo)是兼容兩者現(xiàn)有作業(yè),并做初步整合,算是一個(gè)beta版,之后的第二版才是真正的統(tǒng)一版,它將在第一版的基礎(chǔ)上把CDH和HDP兩條產(chǎn)品線里最好的部分挑選出來并進(jìn)行整合,給客戶更超值的體驗(yàn)。
Cloudera雖然沒有明確給出CDP的時(shí)間點(diǎn),但Arun簡(jiǎn)潔的線框圖似乎在極力暗示著時(shí)間是一年一版。
但事實(shí)遠(yuǎn)不像畫線框圖這么簡(jiǎn)單,CDP除了時(shí)間之外,還存在著產(chǎn)品形態(tài)的不確定性。
因?yàn)镃DH和HDP里存在著互斥的部分,只能二選一,比如管理部分,CDH用的自己開發(fā)的管理工具,HDP用的是開源的Ambari;再比如安全部分,CDH用的是Ranger而HDP用的是Sentry。所以到底選哪個(gè),怎么選,選完后原來的客戶要怎么辦,這些都不確定。
不僅如此,CDH和CDP現(xiàn)在又在分別整合對(duì)方,比如CDH整合了HDP里的實(shí)時(shí)處理部分HDF,HDP也整合了CDH的數(shù)據(jù)科學(xué)組件CDSW,這更讓人看不懂。
所以Cloudera似乎是迷失在了短期需求與遠(yuǎn)期規(guī)劃的三條線路中,還沒找到一個(gè)真正的收斂方案。
那就更不要說它的客戶了。
對(duì)于現(xiàn)有客戶來說,他們不知道是該在原版本上繼續(xù)升級(jí)還是等待整合后的統(tǒng)一版本:原版本升級(jí)雖然簡(jiǎn)單,但已經(jīng)明確知道這會(huì)在兩三年時(shí)間內(nèi)被廢棄,到時(shí)候還得做遷移,等整合版本吧,又不知道什么時(shí)候才能使用。總之是不管哪個(gè)決策都不夠理想,所以只能再等等看看,這點(diǎn)在第一季度的財(cái)報(bào)電話會(huì)議上也得到了現(xiàn)任CEO Reilly的承認(rèn),他表示Cloudera現(xiàn)有客戶似乎都因?yàn)檫@個(gè)的問題推遲了續(xù)費(fèi)。
而對(duì)新用戶來講,更是不知道該選CDH還是HDP還是再等等選CDP。
打個(gè)不恰當(dāng)?shù)谋确秸f,Cloudera讓自己的客戶陷入了驢子吃草的困境之中,這無異于在給競(jìng)爭(zhēng)對(duì)手創(chuàng)造機(jī)會(huì)。
這個(gè)對(duì)手不是同做Hadoop商業(yè)服務(wù)的MapR,而是全球公共云廠商。
這便是Cloudera的遠(yuǎn)慮。
現(xiàn)在已經(jīng)沒必要討論云計(jì)算是不是趨勢(shì)的問題了,大企業(yè)都在IT上云,云計(jì)算已經(jīng)成了規(guī)律,那么自然而然的,作為IT一部分的大數(shù)據(jù)也就被云廠商順手拿走了。
以AWS為例,根據(jù)分析師Rishi Jaluria的預(yù)測(cè),單單AWS上的EMR(托管的Hadoop)和Redshift(類似Hadoop+Hive的數(shù)倉(cāng)解決方案)在2018年的營(yíng)收之和就接近$700M,幾乎跟合并后的Cloudera總收入相當(dāng)。如果再考慮其他大數(shù)據(jù)產(chǎn)品,比如營(yíng)收高達(dá)$1.6B的S3(對(duì)標(biāo)Hadoop的HDFS),那么AWS上大數(shù)據(jù)收入將是Cloudera的數(shù)倍。
更不要說加上Azure、Google Cloud和阿里云的部分了。
公共云廠商正在吃掉一切。
而更可怕的是這根本不是競(jìng)爭(zhēng)。比如前邊雖然提到了有人說S3正在挑戰(zhàn)Hadoop的HDFS,但這種討論只在云的背景下有意義,因?yàn)镾3不是軟件而是服務(wù),如果你在本地自建一個(gè)大數(shù)據(jù)集群,那無論如何S3都威脅不到Hadoop。可一旦企業(yè)上了云,云廠商便掌握了主動(dòng)權(quán),他有各種機(jī)會(huì)引導(dǎo)客戶去使用其自研的產(chǎn)品。
這才是真正讓Cloudera頭疼的事情。
Cloudera的反擊
Cloudera對(duì)這一切非常清楚,他也給出了自己的對(duì)策,這就是前邊提到的CDP。
CDP,全稱叫Cloudera Data Platform,是一個(gè)混合云/多云的大數(shù)據(jù)平臺(tái),既支持在本地或私有云上部署,也支持在多個(gè)公共云上部署——雖然時(shí)間還沒確定,但根據(jù)Cloudera的描述,CDP將會(huì)支持AWS、Azure、Google Cloud、IBM Cloud和Oracle,幾乎覆蓋了美國(guó)所有云廠商。
而Cloudera的邏輯是,企業(yè)上云已經(jīng)不可避免,但企業(yè)同時(shí)想要選擇權(quán),這便是多云/混合云的機(jī)會(huì),而且比起某個(gè)云廠商來說,第三方多云平臺(tái)會(huì)更具中立性,這便是CDP的機(jī)會(huì)。
從某種程度上來說,Cloudera的邏輯和IBM收購(gòu)Redhat的Openshift是一致的。
所以CDP是Cloudera現(xiàn)在最關(guān)鍵的一步,如果成功的話,它不僅統(tǒng)一了Cloudera和Hortonworks的產(chǎn)品線,還能讓Cloudera在云計(jì)算的浪潮之中找到自己的位置,可謂一箭雙雕,既解了遠(yuǎn)慮又消了近憂。
至于Cloudera的CDP會(huì)不會(huì)成功,我想現(xiàn)在誰都沒結(jié)論,但有一點(diǎn)是肯定的,那就是在公共云廠商正在吃掉世界的現(xiàn)在,它的問題值得所有技術(shù)公司認(rèn)真考慮。
這是云廠商之間的戰(zhàn)爭(zhēng),也是技術(shù)公司生存的環(huán)境。
【來源:鈦 媒體 ? ? ? ? ? ? ? 作者: 郭華 】