免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

數據中臺的存儲系統和計算平臺枚舉

作者:向師富 轉自:阿里巴巴數據中臺官網 https://dp.alibaba.com 采集&傳輸層
  • Sqoop Hadoop、關系型數據庫之間傳輸數據的工具。傳輸時,會啟動多個MR作業并發的傳輸數據
  • DataX 阿里巴巴開源的數據同步工具,用來在各種異構數據源之間同步數據。比如 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。部署、運維非常簡單,將DataX的jar包copy到linux系統中即可運行
  • Flume 分布式的高可用的數據收集、聚集的工具。通常用于從其他系統搜集數據,如web服務器產生的日志,結合Kafka的消息隊列功能,實現實時日志處理、離線日志投遞。 典型的使用方案是:
離線計算:應用系統日志 -> flume -> kafka -> hdfs -> MR作業 實時計算:應用系統日志 -> flume -> kafka -> blink/jstorm/storm/spark streaming
  • Logstash 服務器端數據收集工具,能夠同時從多個來源采集、轉換數據。日志收集功能與Flume比較類似
  • Kafka 基于發布/訂閱機制的分布式的消息系統。常用于日志投遞、分發場景
  • RocketMQ 阿里巴巴開源的消息隊列工具。經過了雙11場景的洗禮,穩定性、可靠性非常好
存儲層
  • HDFS Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束,來實現流式讀取數據文件
  • HBase Hbase是分布式、KV查詢的開源數據庫(其實準確的說是面向列族)。HDFS為Hbase提供可靠的底層數據存儲服務,MapReduce為Hbase提供高性能的計算能力,Zookeeper為Hbase提供穩定服務和Failover機制,LSM數據存儲格式提供了高性能讀寫能力
  • redis Redis是key-value存儲系統。采用ANSI C語言編寫、遵守BSD協議、支持網絡、可基于內存亦可持久化的日志格式,并提供多種語言的API。提供了哈希(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等數據結構
  • Ceph 開源分布式存儲系統,提供了塊儲存RDB、分布式文件儲存Ceph FS、以及分布式對象存儲Radosgw三大儲存功能,是目前為數不多的集各種存儲能力于一身的開源存儲中間件
  • 存儲格式 常見的有Apache Parquet,Apache ORC、華為Carbondata、Kudu、Avro等。在大數據領域,面向不同的業務場景,采用不同的數據存儲格式。這幾類存儲格式的差異點,主要體現在行、列存儲、預計算
計算層
1、離線計算
  • Hive Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。是事實上的離線數據倉庫標準。
  • Spark Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是——Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。
  • MaxCompute 阿里巴巴開發,基于MR原理的大數據處理平臺,已經通過阿里云對外輸出,是一種快速、完全托管的TB/PB級數據倉庫解決方案。
  • CDH CDH是Cloudera的軟件發行版,包含Apache Hadoop及相關項目。所有組件都是100%的開源(Apache許可證)。
2、實時計算
  • Storm/Jstorm 分布式的、高容錯的實時計算系統,2014年以前應用非常廣泛,近幾年初步被其他流計算產品替代。
  • Flink Flink是一個低延遲、高吞吐、統一的大數據計算引擎。在阿里巴巴的生產環境中,Flink的計算平臺可以實現毫秒級的延遲情況下,每秒鐘處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數據的正確性。這樣就使得Flink大數據引擎可以提供金融級的數據處理能力。
  • Spark Streaming Spark Streaming 類似于 Apache Storm,是一個流計算處理框架。Spark Streaming 有高吞吐量和容錯能力強這兩個特點。
在 Spark Streaming 中,處理數據的單位是一批而不是單條,而數據采集卻是逐條進行的,因此 Spark Streaming 系統需要設置間隔使得數據匯總到一定的量后再一并操作,這個間隔就是批處理間隔。批處理間隔是 Spark Streaming 的核心概念和關鍵參數,它決定了 Spark Streaming 提交作業的頻率和數據處理的延遲,同時也影響著數據處理的吞吐量和性能。
數據服務層
  • Kylin 開源的分布式分析引擎,提供Hadoop/Spark之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據。核心原理是數據預計算,利用空間換時間來加速查詢模式固定的OLAP查詢。最新的版本已經支持了實時數據導入。
  • Druid Druid也是一款非常流行的olap引擎,基于MPP架構,采用了 預聚合、列式存儲、字典編碼、位圖索引 4個方法,加速查詢性能。 截止2019年9月22日,Druid原生不支持數據精確去重功能。快手已經將Druid應用于生產環境。
  • Presto Presto是一個開源的分布式SQL查詢引擎,適用于交互式分析查詢,數據量支持GB到PB字節。Presto的設計和編寫完全是為了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。
  • Lucene Lucene 是一個基于Java 的全文信息檢索工具包,目前主流的搜索系統Elasticsearch和solr都是基于lucene的索引和搜索能力進行。
  • ElasticSearch 基于Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎。
  • Solr Solr是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成,以及富文本的處理。Solr是高度可擴展的,并提供了分布式搜索和索引復制。Solr是最流行的企業級搜索引擎,Solr 4還增加了NOSQL支持。
  • Palo 百度開源的olap引擎,在百度內部使用比較廣泛。基于MPP架構,集成了Google Mesa、Cloudera Impala。
阿里巴巴數據中臺團隊,致力于輸出阿里云數據智能的最佳實踐,助力每個企業建設自己的數據中臺,進而共同實現新時代下的智能商業! 阿里巴巴數據中臺解決方案,核心產品: Dataphin,以阿里巴巴大數據核心方法論OneData為內核驅動,提供一站式數據構建與管理能力; Quick BI,集阿里巴巴數據分析經驗沉淀,提供一站式數據分析與展現能力; Quick Audience,集阿里巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連接阿里巴巴商業,實現用戶增長。


原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。

網站欄目:數據中臺的存儲系統和計算平臺枚舉
當前URL:http://m.newbst.com/article32/jesjpc.html

成都網站建設公司_創新互聯,為您提供建站公司云服務器品牌網站建設App開發動態網站ChatGPT

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

成都網站建設