2021-02-20 分類: 網站建設
01 什么是Flink?
在當前數據量激增傳統的時代,不同的業務場景都有大量的業務數據產生,對于這些不斷產生的數據應該如何進行有效地處理,成為當下大多數公司所面臨的問題。
隨著雅虎對Hadoop的開源,越來越多的大數據處理技術開始涌入人們的視線,例如目前比較流行大數據處理引擎Apache Spark,基本上已經取代了MapReduce成為當前大數據處理的標準。
但隨著數據的不斷增長,新技術的不斷發展,人們逐漸意識到對實時數據處理的重要性,企業需要能夠同時支持高吞吐、低延遲、高性能的流處理技術來處理日益增長的數據。
▲有狀態計算架構同時Flink支持高效容錯的狀態管理,Flink能夠將其狀態維護在內存或RockDB數據庫中,為了防止狀態在計算過程中因為系統異常而出現丟失,Flink周期性的通過分布式快照技術CheckPoints實現狀態的持久化維護,使得在系統即使在停機或者異常的情況下都能正確的進行狀態恢復,從而保證在任何時間都能計算出正確的結果。
數據架構的演變過程,伴隨著技術的不斷迭代更新,Flink具有先進的架構理念,以及諸多的優秀特性,以及完善的編程接口,而Flink也在每一次的Release版本中,不斷推出新的特性。
例如Queryable State功能的提出,將直接容許用戶通過遠程的方式直接獲取流式計算任務的狀態信息,也就是說數據不需要落地數據庫就能直接從流式應用中直接查詢出,對于實時交互式的查詢業務可以直接從Flink的狀態中查詢最新的結果,當然這個功能目前還屬于Beta版本,但是相信在不久的未來,會變得越來越完善,那時Flink將不僅作為實時流式處理的框架,更多的可能會成為一套實時的存儲引擎,會讓更多的用戶從有狀態計算的技術中獲取收益。
同時支持高吞吐、低延遲、高性能
Flink是一套集高吞吐,低延遲,高性能三者于一身的分布式流式數據處理框架。
非常成熟的計算框架Apache Spark也只能兼顧高吞吐和高性能特性,在Spark Streaming流式計算中無法做到低延遲保障;而Apache Storm只能支持低延遲和高性能特性,但是無法滿足高吞吐的要求。而對于滿足高吞吐,低延遲,高性能這三個目標對分布式流式計算框架是非常重要的。
支持事件時間(Event Time)概念
在流式計算領域中,窗口計算的地位舉足輕重,但目前大多數計算框架窗口計算所采用的都是系統時間(Process Time),也是事件傳輸到計算框架處理時,系統
基于輕量級分布式快照(Snapshot)實現的容錯
Flink能夠分布式運行在上千個節點之上,將一個大型計算的流程拆解成小的計算過程,然后將計算過程分布到單臺并行節點上進行處理。
在任務執行過程中,能夠自動的發現事件處理過程中的錯誤而導致數據不一致的問題,常見的錯誤類型例如:節點宕機,或者網路傳輸問題,或是由于用戶因為升級或修復問題而導致計算服務重啟等。
在這些情況下,通過基于分布式快照技術的Checkpoints,將執行過程中的任務信息進行持久化存儲,一旦任務出現異常宕機,Flink能夠進行任務的自動恢復,從而確保數據在處理過程中的一致性。
基于JVM實現獨立的內存管理
內存管理是每套計算框架需要重點考慮的領域,尤其對于計算量比較大的計算場景,數據在內存中該如何進行管理,針對內存管理這塊,Flink實現了自身管理內存的機制,盡可能減少Full GC對系統的影響。
另外通過自定義序列化/反序列化方法將所有的對象轉換成二進制在內存中存儲,降低數據存儲的大小,更加有效的對內存空間進行利用,降低GC所帶來的性能下降或者任務停止的風險,同時提升了分布式處理過數據傳輸的性能。
因此Flink較其他分布式處理的框架則會顯得更加穩定,不會因為JVM GC等問題而導致整個應用宕機的問題。
Save Points(保存點)
對于7*24小時運行的流式應用,數據源源不斷的接入,在一段時間內應用的終止都有可能導致數據的丟失或者計算結果的不準確性,例如進行版本的升級,停機運維操作等,都能導致這種情況發生。
然而值得一提的是Flink通過其Save Points技術能夠將任務執行的快照(Snapshot)保存在存儲介質上,等待任務重啟的時候可以直接從實現保存的Save Points恢復原有的計算狀態,使得任務繼續按照停機之前的狀態繼續運行,Save Points技術可以讓用戶更好的管理和運維實時流式應用。
同時Flink除了上述的特性之外也具有其他非常優秀的特性,可以讓用戶有更多選擇。Flink具備非常多的優秀特性,這不僅讓Flink在社區的知名度越來越高,也吸引了眾多的企業參與研發和使用Flink這項技術。
當前名稱:為什么Flink會成為下一代大數據處理框架的標準?
網頁路徑:http://m.newbst.com/news19/101919.html
成都網站建設公司_創新互聯,為您提供做網站、關鍵詞優化、網站設計公司、虛擬主機、網站設計、網站制作
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容