2021-02-09 分類: 網站建設
Apache Hadoop出現在IT領域是在2006年,它可以支持使用廉價的商用硬件來存儲海量數據。從某種意義上來說,Hadoop幫助我們迎來了大數據時代。希望越高,期待也越大。企業可以在稱之為數據湖的基于Hadoop的存儲中存儲盡可能多的數據,并進行后續的分析。這些數據湖伴隨著一系列的獨立的開源計算引擎,并且基于此開源即意味著免費。那么會可能出現什么錯誤?
Monte Zweben,Splice Machine的CEO,對Hadoop將要發生的事情有一個有趣的看法,特別是對其垮臺背后的三個主要原因:
模式讀是一個錯誤
首先,所謂Hadoop的好功能竟是它的致命缺點。隨著寫模式限制的解除,TB級的數據結構化或非結構化的數據寫入到數據湖中。由于Hadoop的數據治理框架和功能仍在設計,企業越來越難以確定其數據的血緣關系,導致它們對自己的數據失去信任,數據湖變成了數據沼澤。
Hadoop的復雜性和管道式的計算引擎
其次,Hadoop發行版中提供了一些列的開源計算引擎,例如Apache Hive,Apache Spark,Apache Kafka。這些計算引擎操作起來很復雜,需要專門的技術才能把這些技術串聯起來,但比較困難。
錯誤的焦點 - 數據湖與應用程序
第三點也是最重要一點,數據湖項目開始失敗,因為Hadoop集群往往成為企業數據流管道(過濾,處理,傳輸)的gateway,然后數據會轉出到數據庫和數據集市用于下游匯報,并且幾乎從未在企業中找到真正的業務應用程序。結果,數據湖最終成為一組龐大的不同計算引擎,在不同的工作負載上運行,所有這些引擎共享相同的存儲。這些很難進行管理。生態系統中的資源隔離和管理工具正在不斷完善,但仍有很長的路要走。企業無法將注意力從使用數據湖作為廉價的數據存儲庫轉移到使用數據和支持關鍵任務應用程序的平臺。
許多組織都關注Hadoop生態系統的最新發展,并承受著展示數據湖價值的壓力。對于企業來說,至關重要的是確定如何在Hadoop失敗后成功地實現應用程序的現代化,以及實現這一目標的好策略。Hadoop曾經是最被炒作的技術,如今屬于人工智能。當心炒作周期,有一天你可能不得不為它的影響負責。
本文題目:Hadoop發生了什么?我們該如何做?
地址分享:http://m.newbst.com/news18/99968.html
成都網站建設公司_創新互聯,為您提供App開發、外貿建站、品牌網站建設、軟件開發、小程序開發、網站設計公司
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容