欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

對話Hadoop之父Doug Cutting|大數據和開源的未來

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

2016-08-24 大數據文摘 真正致歉:大數據文摘在8月23日的頭條文章中,將中科院院士“陸汝鈐”錯寫成了“陸汝鈴”。對此,大數據文摘全體編輯組深表歉意,向所有讀者和陸汝鈐院士真誠致歉,并感謝在后臺留言提醒的所有讀者。 大數據文摘自2013年成立以來一直堅持每日更新,從未間斷,之后也會繼續帶來更多高質量好文。 【線上活動報名】 活動:螞蟻金服&阿里云在線金融技術峰會 講師:8位阿里及螞蟻金服資深大V線上培訓答疑 時間:8月30日-31日晚20:00-21:30 免費報名方式見文末 課程結束后,PPT等素材會在群里第一時間公開 ◆ ◆ ◆ 前言 對中國大數據產業來說,2016年是從垂直領域野蠻生長到爆發全國范圍關注熱潮的一個轉折點。不論是人山人海巨頭云集的貴陽數博會,還是首次在華舉辦的全球頂級大數據會議Strata + Hadoop World,都揭示了中國大數據產業發展的澎湃動力。 在Hadoop生態領域,Cloudera是規模最大、知名度最高的企業,也是當前大數據領域最強有力的解決方案服務商之一。帶著對中國大數據市場的滿滿誠意,Cloudera創始人、董事長兼首席戰略官Mike Olson以及Hadoop之父、Cloudera首席架構師Doug Cutting日前到訪清華,講述了Hadoop的發展歷程,并與清華大學軟件學院副院長、黨委書記王建民及現場的同學們展開了深刻而有趣的對話。 相關新產品的涌現對于大數據技術的未來會有什么樣的影響?大數據服務的云平臺未來應該如何選擇?怎樣去發現中國真正的大數據市場?中國的開源發展目前是什么情況?大數據文摘今日推送對話三位大師關于以上問題的對話實錄。 對話人物簡介 Doug Cutting:畢業于美國斯坦福大學,Lucene、Nutch等開源項目的發起人,打造了目前在云計算和大數據領域里如日中天的Hadoop,讓大數據推動業務的數字化轉型有了開源的技術平臺。他擅于把高深莫測的搜索技術形成產品并貢獻于市場及大眾,現任Cloudera首席架構師,同時也在Apache軟件基金會董事會任職。 Mike Olson:畢業于加利福利亞大學,曾作為Sleepycat軟件公司CEO主導開發了全球應用廣泛的開源數據庫Berkeley DB,后被甲骨文收購,任甲骨文嵌入式技術副總裁。2008年與其他三位合伙人創立Cloudera,將其打造成國際領先的大數據數據管理和分析平臺的服務商,2014年12月Cloudera進入中國。 王建民:清華大學軟件學院副院長、清華大學軟件學院大數據中心主任,國家科技部中青年科技領軍人才,國家基金委杰出青年基金獲得者,國家“核高基”科技重大專項總體組成員,國家863計劃先進制造領域專家、國家衛計委信息化專家委專家、我國第一個大數據專項“核高基”-“非結構化數據管理系統”負責人;工信部“中國制造2025”:“操作系統與工業軟件”工作組組長。 ◆ ◆ ◆ 一、 關于HADOOP與Spark、GPU,及商業化未來 1、面對Spark這類新興技術的發展,以及MapReduce市場萎縮的情況,你們如何看待這種市場變化? 邁克:Hadoop由很多部分構成,第一層是HDFS,完全做分布式存儲,此外MapReduce用來做分布式處理;有分布式地面向列的開源數據庫技術HBase;Impala可以在支持Hadoop的HDFS系統上,直接做SQL的查詢;也有Cloudera做的Kudu這樣的新型存儲技術。 Spark只是其中的新技術之一,并不是好像全世界都只用Spark。當然,我們如果要去比較Spark和MapReduce,從現在的情況來看,Spark的確會勝出,但基于Hadoop還會不斷涌現出更多新技術。 道克:沒錯,Spark的確非常好。在實時批處理上表現優異,但它不是全能的,比如它不具備SQL訪問查詢、Solr和Lucence搜索倒排索引、HDFS、Kudu的數據存儲能力等。Spark僅僅是Spark,它不代表Hadoop所有的技術,Hadoop將會孕育更多新技術出來。 2、計算機和大數據技術都在日新月異的變化,特別在硬件方面,我們看到很多下一代硬件不斷的涌現,這些新產品的涌現對于大數據技術的未來會有什么樣的影響? 邁克:像網絡、CPU在未來會出現非常多的變化,正確的方法是軟件去適配硬件,而不是無視硬件的變化。硬件的升級并不會妨礙未來大數據技術的發展,反而大數據系統會更好的去利用這些新硬件去改變世界,兩者不存在替代關系。 過去十年,我們已經看到了很多這類變化。Cloudera有著非常深厚的英特爾背景,我們的很多員工來自于英特爾,英特爾也是我們的投資人之一。我相信我們和英特爾的密切關系,未來會更多的幫助下一代軟硬件技術的融合與適配。 道克:很多人在問我,怎么把GPU和Hadoop結合,這其實是一個錯誤的命題。Hadoop實際上是基于IO Intensive的系統,它整個系統的瓶頸是在系統的IO上,包括磁盤IO、網絡IO,所以它需要解決的根本并不是CPU的問題。未來當IO不再困擾我們的時候,也許那時再來談怎么用CPU加速的技術解決更多問題更有意義。 像谷歌Tenzing的機器學習系統就可以很好的利用GPU,而不是現在吧的大數據系統來加速。但我相信在這個領域將來會有更多的機會,我們將看到很多數據結構、系統結構,會適應新硬件的變化趨勢而發生轉變。 3、Hadoop3.0的關鍵特性 邁克:Hadoop3.0的確會有一些側重,排在首位的就是多租戶技術,將來我們會在Hadoop 3.0的平臺上看到更多不同的像MapReduce、Spark這樣的技術,可以同時在一個平臺上被不同的用戶運行,就像Yarn正在做的一樣。所以Hadoop 3.0的特點就是支持更多的系統可以更好的運行,更好的去實現多租戶這個概念。 另外,Hadoop3.0更多的是適配新硬件技術的改變,比如英特爾新推出的優化存儲、CPU的新技術,特別是SSD技術。硬件價格的走低,讓我們更有可能去利用這些技術。Cloudera新啟動的一個Apache開源項目叫Apache Kudu,這是一個新型的存儲系統,Kudu就正在利用這樣一些這樣的新硬件技術。 道克:現在還有另一個我們在做的項目,內容是基于HDFS和新型硬件結合做系統復制。這種復制技術,不只能加快系統的速度,還會提升系統的容量。這個項目的開發者就在英特爾中國公司,中國已經出現了很多很好的創新技術。 4、CDH商業產品的未來怎么樣? 邁克:Cloudera一直在保持這個系統的開源,雖然上面有很多收費的工具,但是這樣做的目的并不是阻止用戶。因為現在有很多商業軟件巨頭會利用我們的開源系統,把它作為商業軟件,去獲得更多的市場機會,去贏取更多的利潤。所以我們一方面會保持底層數據存儲、處理引擎系統的開源,讓用戶可以把這個技術用得更好、讓系統變得更易用;同時,堅持收費的舉措也讓我們能夠有能力在大數據系統市場上和大型商業軟件公司競爭。 開源將有利于更多人參與系統的開發,讓更多的大學可以參與學習,讓更多的用戶可以接受新知識。所以大家看到了Impala和Spark。我很高興看到作為一家公司Cloudera在大數據市場上越來越多的成長機會。 道克:開源平臺上,Apache僅僅是把所有技術囊括在一起,但Apache上面可能有二十多種不同的打包方式,怎么去安裝?怎么去配置?怎么去打包?這些其實對很多用戶來講都非常具有挑戰性。所以我們推出CDH Commercial版,已經幫大家把對應的系統打包好了,通過CDH我們會幫助大家更好的管理數據,管理大數據系統。 如果用戶愿意去使用免費開源系統這沒有任何問題,但是如果用戶需要我們的幫助,可以去訂購Cloudera的商業版。這就是硅谷現在的開源文化,有越來越多的公司在做開源。開源的東西是免費的,但我們在不斷提供增值服務。我們也需要有更多的客戶認可這樣的服務價值并愿意幫助Cloudera這樣的公司在市場上存活下去,跟我們建立更長期的合作關系,支持我們的業務。 ◆ ◆ ◆ 二、 關于大數據系統的應用,選擇與困擾 5、如果我們現在有一個項目剛開始,面對這么多大數據系統,應該怎么選擇一個合適的平臺? 道克:這的確很難,我們可能需要去熟悉所有的系統和工具,需要更多的實驗,去測試這些系統。在滿足工作負載的前提下,比較在哪個系統工具上工作得更好。但幸運的是,這類測試的確越來越容易了,現在有越來越多的工具可以進行輔助。 但是真正在設計的過程中需要去考慮很多技術細節,比如系統處理速度和系統吞吐的平衡。這個過程更像是一門藝術,而不像一個技術。 邁克:你選Cloudera就行了,不用去想更多的(哈哈)。 6、我們現在碰到的很大問題是面對系統的版本升級,用戶需要不斷去升級他們建好的系統,Cloudera怎么看待這樣的挑戰? 邁克:當然,商業版的更新很簡單,一鍵安裝新的系統就好了。如果是開源的系統就會很難,因為開源你需要去選擇一個適合的文件包,需要自己去重新搭建,需要自己去測試,而這些在Cloudera商業版里都已經幫你做好了。 道克:如果不兼容,就只能來找Cloudera,這樣我們的商業服務就能有發展空間了(哈哈)。 王建民:看來這樣的機會、這樣的服務對于Cloudera而言是一個很有價值的業務。 邁克:我們是一家創新公司,所以首先我們是一群創新者,我們的首要工作是設立未來大數據系統發展的方向。第二件事,我們的確做商業軟件,我們會把這些開源系統打包、測試,會在上面做很多工具,我們也會利用它來提供服務。 7、大數據服務的云平臺未來應該如何選擇? 邁克:在商業層面上各種主流的云平臺Cloudera都支持,我們在北美和AWS、谷歌等都有合作,在中國將和騰訊、百度等有更多的合作,可以看到云服務市場增長非常快。 道克:如何選擇云服務有很多因素要考慮。第一個是經濟角度上,到底哪種方式更具性價比,并不是所有的公有云都比私有云更便宜。第二個是安全,雖然我們可以用多種加密的方式解決這個問題,讓別人更安心,但是安全永遠是影響抉擇的重要因素。還有另一個問題,我們需要考慮得非常清楚,通常我們遷移大數據系統是非常昂貴的,所以我們在選擇一個云的運營商之前,首先要意識到,這個運營商給我們提供的技術是不是我們需要的。一旦需要在這個平臺上進行轉換,是不是很容易操作。我能見到的最大錯誤就是選擇了某個云平臺之后被吃定,無法遷移轉換。 邁克:我們選擇開源有一個非常大的好處,因為底層的技術其實都是一樣的,是完全兼容的。如果我們選擇了不合適的云運營商,或者不合適的大數據商業軟件合作伙伴,我們可以比較容易完成系統遷移。 道克:還有一個融合的問題。比如企業內部有架構存儲一部分數據,同時在公有云上也存儲一部分數據,如果我們選擇混合云的方式,可能會讓我們在處理數據時非常困難,因為這兩個架構之間任一方向的數據遷移,都非常昂貴。是否需要把數據放在不同的地方,這也是我們在選擇云計算架構時必須要非常認真考慮的一個問題。 8、如何去發掘Hadoop系統的應用性領域,尤其在中國?怎樣去發現中國真正的大數據市場? 邁克:大數據分析、機器學習等技術發展,都在真實發生著,這些事情觸發了我們會有更多的數據,需要更多的處理能力,需要有更多的分析應用,這樣正是我們希望看到的市場需求。 2006年我代表Oracle來中國,當時正好是中國“十一五”開端的第一年,中國政府第一次在“十一五”的五年規劃中開始強調創新,今年是2016年,是“十三五”的開局之年,中國政府不但強調創新,還強調了創業,我認為中國現在有一個非常好的開端。 對于Cloudera而言,在中國市場需要尋找更多的合作伙伴。我們看到像GM跟上汽合作為全球市場設計新車,中國已經出現越來越多的垂直細分領域,比如像電信、保險,有越來越多的中國公司在使用大數據,成為很好的行業范例。中國大數據的應用前景非常好,已經取得了令人刮目相看的成就。中國市場的體量非常大,增量也會很大,不只是大數據市場,中國在其它細分領域一定會出現更多更好的創新,會孵化出更多大數據的技術與應用。 ◆ ◆ ◆ 三、 關于開源及未來 9、事實上,人們對開源還有困惑,很多中國團隊的想要致力于開源,你們有什么建議給那些想要參與進來的人? 道克:第一件事是找到一個恰當的領域,現在的開源項目不是那么容易做好,首先要確保你的產品是有用的。 提問:這個領域是什么? 道克:這個很難去做預測,每個細分行業都有不同的現實情況,但相信大家是可以找發掘的。第二點,明確領域后,我們要建立對應的大數據系統;第三點,系統做出來之后我們需要有更多的參與者,需要讓大家意識到這個系統的價值,并愿意投入去改進你現在做的系統,愿意加入這個的社區團隊。這就是我們講到的開源文化。 這三步做到之后,你的項目規模自然而然就會增長,就會吸引更多的人參與,而且在這個過程中,所有參與項目的人需要非常開放,樂于幫助,更多這樣的人加入才會促使這件事成功。反之,如果我們做的是非常狹隘的一個領域,并希望它控制在一個什么樣的范圍內,通常這樣的項目就難以成功。 邁克:在成為Cloudera的Leader之前,我曾是一個開發人員,做伯克利的數據庫。在我的經驗中,社區是最重要的。并不是說一個開源社區做出來就是為了免費,關鍵是有更多人參與。現在中國的團隊不只是參與到既有的項目中,有的已經開始去創造自己的新項目。 比如說來ebay中國的一群人創造了麒麟這個項目,這個項目現在已經變成了Apache的一個典型項目。所以我非常樂于見到更多來自中國的技術可以貢獻在全球。 王建民:現在中國有非常好的開源文化,很多年輕一代都非常熱情,愿意去做這件事情,但苦于我們沒有找到正確的門路和方法。清華正在做這方面的努力,清華數科院和Cloudera的戰略合作,其中非常重要的部分就是如何幫助中國開源社區的成長,我們也希望通過這樣的方式,培養更多的中國本土的Leader,將來他們可以去創建多樣化的開源社區,去領導更多的項目。 道克:需要強調一下,開源并不是一件容易的事情,它意味著我們需要投入更多的努力。我們需要有大量來自全球的有關需求的溝通,可能你的團隊在中國,你的需求來自于英國或者是美國,語言障礙會帶來挑戰。此外,選擇做開源,選擇一個更多人可以用的東西,一定意味著需要有更多付出。 舉一個例子,我和我孩子做飯,可以選擇我自己做,讓我的孩子做,或者教我的孩子做。讓我做飯很簡單,但是讓我的孩子做飯一定是個災難。如果讓我選擇,教我的孩子如何做飯,雖然培養的過程需要花很多的精力,但最終當孩子學會做飯之后,就能一勞永逸。 開源社區也是這樣,開始階段需要投入比我們現有項目更多的努力,但是一旦我們很好的建立一個社區和社區文化,這個項目就會有一種自我生長、自我繁殖的能力。 10、中國另一個現狀就是天賦的缺失,你們有什么建議? 道克:這個的確很難,因為現在大數據技術的變化演進非常快,如果你希望成為一個大數據人才,就必須有非常強的學習新技術的能力。技術變化太快了,只有最好的人才能做到。真正能夠解決的方式只有自我不斷的學習,以及可以有第三方提供的培訓來幫助大家。Cloudera提供了一些課程出來,這個課程對大學是免費的。 王建民:為了解決大數據人才的問題,中國已經有很多大學開設了大數據教育的課程,清華數科院就有相關的碩士計劃,第一屆已經有150名以上的學生,來自清華不同院系的師資支持這個課程,但是這個課程到底應該怎么去上呢? 參與授課的學生基本上可以分成三類,第一類是有很強的IT背景,可以做很多數據工程的事情;第二類來自社會信息學的領域,在他的工作中有很大部分就是在處理數據。第三類人是來自傳統行業,比如像機械工程這樣的領域,他們以前沒有足夠的IT知識和處理數據的技能。 我們在去年的授課過程中也在不斷的調整課程,我們認為更好的解決方法,是理論和實踐結合,讓大家在學習理論課程的同時有更多的實踐機會,能夠更好的去解決技能問題。Cloudera提供的這些免費課程將會被引進到清華大數據碩士教育的計劃中。 11、大數據技術在中國未來會怎樣發展? 王建民:第一點,大數據在中國的進步會非常好,數據來源會非常多,中國有越來越多的人、越來越多的機器、越來越多的在線交易,都在產生大量的數據。但是在這個過程中我們要改變現在的文化,讓決策聽從數據驅動。第二點,不要把大數據神化,認為大數據可以做更多的事情,要有耐心把大數據和我們的業務更好的結合起來。第三點,我們需要更多的注意安全和隱私,我們會有越來越多的數據,數據安全實際上是這個發展的前提。第四點,要更多發展中國自己的技術。 邁克:中國大數據有非常好的未來,清華這邊也在做很多和大數據相關的事情,大數據在全球的發展已經非常成功,在中國經濟方面、社會方面都會涌現非常多的機會。 道克:是的,中國一定會有很多的機會,而且中國的技術也已經很先進了,更重要的是現在開源社區給了我們更多的機會去參與學習。 12、大數據技術的未來又是什么樣的? 道克:這個非常難預測,現在不太可能會知道,如果要知道我就去做了。我認為更可能知道的是在座的各位,如果大家有什么樣非常好的想法,可以去積極嘗試。 邁克:在中國,小米正在使用Kudu,而Spark社區現在也變得越來越熱,這個情況在五年前我們都是見不到的。所以現在開源社區給我們一個非常好的環境和生態系統,像Hadoop這樣,可以幫助大家更好的去發展更多新的技術。 王建民:我們能夠看到的是,大數據系統對于中國的很多用戶來講,非常難使用,已有的開源技術并不能被很好的利用起來。在我們實驗室現在就有這樣一個項目,可以幫助大家更簡化的使用今天Hadoop的系統,是一種用機器學習的方法更多去完成自動化的參數、自動化的控制,我們正在做更多的努力。 邁克:這個方向很好,機器學習一定是未來的趨勢,我們應該思考怎么在更多方面結合這項技術。 本文授權轉自數據派(datapi) 【線上活動報名】 活動:螞蟻金服&阿里云在線金融技術峰會 講師:8位阿里及螞蟻金服資深大V線上培訓答疑 時間:8月30日-31日晚20:00-21:30 點擊文末閱讀原文鏈接直接報名 掃碼加入“大數據文摘-阿里云棲社區”,有專人指導報名和做相關交流。 如果掃碼入群有問題, 請加微信bigdataGJJ,備注"螞蟻" 培訓資料和錄像將在群內第一時間公開

本文被轉載1次

首發媒體 搜狐科技 | 轉發媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 欧美成人黄色网 | 亚洲精品日韩精品一区 | 日韩欧美一区二区三区四区 | 大学生一级毛片免费看真人 | 亚洲免费在线视频播放 | 色色视频网| 国产高清a毛片在线看 | 色婷婷亚洲综合 | 久久成人免费大片 | 好好的曰com久久 | 国产成人免费视频精品一区二区 | 国产人成激情视频在线观看 | 国产精品久久影院 | 一级毛片在线观看免费 | 久久精品99精品免费观看 | 亚洲精品一区久久狠狠欧美 | 久久久99精品 | 天天操综合视频 | 视频二区 中文字幕 欧美 | 精品久久久久国产 | 亚洲日韩精品欧美一区二区一 | 成 人 黄 色 | 一级毛片免费网站 | 日本精品视频在线 | 亚洲成人第一 | 奇米777狠狠色噜噜狠狠狠 | 国产一区二区三区免费观看 | 国产精品久久一区二区三区 | 奇米888在线看奇米999 | 亚洲一区二区三区中文字幕 | www久久精品 | 亚洲福利社 | 一级欧美一级日韩毛片99 | 亚洲精品色一区二区三区 | 久久99久久99精品 | 少妇美女极品美軳人人体 | 亚洲伦理视频 | 在线视频www | 国产精品短视频 | 久久久免费视频观看 | 综合欧美一区二区三区 |