數據中臺的存儲系統和計算平臺枚舉

作者：向師富轉自：阿里巴巴數據中臺官網 https://dp.alibaba.com 采集&傳輸層

Sqoop Hadoop、關系型數據庫之間傳輸數據的工具。傳輸時，會啟動多個MR作業并發的傳輸數據
DataX 阿里巴巴開源的數據同步工具，用來在各種異構數據源之間同步數據。比如 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。部署、運維非常簡單，將DataX的jar包copy到linux系統中即可運行
Flume 分布式的高可用的數據收集、聚集的工具。通常用于從其他系統搜集數據，如web服務器產生的日志，結合Kafka的消息隊列功能，實現實時日志處理、離線日志投遞。典型的使用方案是：

離線計算：應用系統日志 -> flume -> kafka -> hdfs -> MR作業實時計算：應用系統日志 -> flume -> kafka -> blink/jstorm/storm/spark streaming

Logstash 服務器端數據收集工具，能夠同時從多個來源采集、轉換數據。日志收集功能與Flume比較類似
Kafka 基于發布/訂閱機制的分布式的消息系統。常用于日志投遞、分發場景
RocketMQ 阿里巴巴開源的消息隊列工具。經過了雙11場景的洗禮，穩定性、可靠性非常好

存儲層

HDFS Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。HDFS是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問，非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束，來實現流式讀取數據文件
HBase Hbase是分布式、KV查詢的開源數據庫（其實準確的說是面向列族）。HDFS為Hbase提供可靠的底層數據存儲服務，MapReduce為Hbase提供高性能的計算能力，Zookeeper為Hbase提供穩定服務和Failover機制，LSM數據存儲格式提供了高性能讀寫能力
redis Redis是key-value存儲系統。采用ANSI C語言編寫、遵守BSD協議、支持網絡、可基于內存亦可持久化的日志格式，并提供多種語言的API。提供了哈希(Hash), 列表(list), 集合(sets) 和有序集合(sorted sets)等數據結構
Ceph 開源分布式存儲系統，提供了塊儲存RDB、分布式文件儲存Ceph FS、以及分布式對象存儲Radosgw三大儲存功能，是目前為數不多的集各種存儲能力于一身的開源存儲中間件
存儲格式常見的有Apache Parquet，Apache ORC、華為Carbondata、Kudu、Avro等。在大數據領域，面向不同的業務場景，采用不同的數據存儲格式。這幾類存儲格式的差異點，主要體現在行、列存儲、預計算

計算層

1、離線計算

Hive Hive是基于Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。是事實上的離線數據倉庫標準。
Spark Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架，Spark，擁有Hadoop MapReduce所具有的優點；但不同于MapReduce的是——Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。
MaxCompute 阿里巴巴開發，基于MR原理的大數據處理平臺，已經通過阿里云對外輸出，是一種快速、完全托管的TB/PB級數據倉庫解決方案。
CDH CDH是Cloudera的軟件發行版，包含Apache Hadoop及相關項目。所有組件都是100％的開源（Apache許可證）。

2、實時計算

Storm/Jstorm 分布式的、高容錯的實時計算系統，2014年以前應用非常廣泛，近幾年初步被其他流計算產品替代。
Flink Flink是一個低延遲、高吞吐、統一的大數據計算引擎。在阿里巴巴的生產環境中，Flink的計算平臺可以實現毫秒級的延遲情況下，每秒鐘處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數據的正確性。這樣就使得Flink大數據引擎可以提供金融級的數據處理能力。
Spark Streaming Spark Streaming 類似于 Apache Storm，是一個流計算處理框架。Spark Streaming 有高吞吐量和容錯能力強這兩個特點。

在 Spark Streaming 中，處理數據的單位是一批而不是單條，而數據采集卻是逐條進行的，因此 Spark Streaming 系統需要設置間隔使得數據匯總到一定的量后再一并操作，這個間隔就是批處理間隔。批處理間隔是 Spark Streaming 的核心概念和關鍵參數，它決定了 Spark Streaming 提交作業的頻率和數據處理的延遲，同時也影響著數據處理的吞吐量和性能。

數據服務層

Kylin 開源的分布式分析引擎，提供Hadoop/Spark之上的SQL查詢接口及多維分析（OLAP）能力以支持超大規模數據。核心原理是數據預計算，利用空間換時間來加速查詢模式固定的OLAP查詢。最新的版本已經支持了實時數據導入。
Druid Druid也是一款非常流行的olap引擎，基于MPP架構，采用了預聚合、列式存儲、字典編碼、位圖索引 4個方法，加速查詢性能。截止2019年9月22日，Druid原生不支持數據精確去重功能。快手已經將Druid應用于生產環境。
Presto Presto是一個開源的分布式SQL查詢引擎，適用于交互式分析查詢，數據量支持GB到PB字節。Presto的設計和編寫完全是為了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。
Lucene Lucene 是一個基于Java 的全文信息檢索工具包，目前主流的搜索系統Elasticsearch和solr都是基于lucene的索引和搜索能力進行。
ElasticSearch 基于Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎。
Solr Solr是Apache Lucene項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、數據庫集成，以及富文本的處理。Solr是高度可擴展的，并提供了分布式搜索和索引復制。Solr是最流行的企業級搜索引擎，Solr 4還增加了NOSQL支持。
Palo 百度開源的olap引擎，在百度內部使用比較廣泛。基于MPP架構，集成了Google Mesa、Cloudera Impala。

阿里巴巴數據中臺團隊，致力于輸出阿里云數據智能的最佳實踐，助力每個企業建設自己的數據中臺，進而共同實現新時代下的智能商業！阿里巴巴數據中臺解決方案，核心產品： Dataphin，以阿里巴巴大數據核心方法論OneData為內核驅動，提供一站式數據構建與管理能力； Quick BI，集阿里巴巴數據分析經驗沉淀，提供一站式數據分析與展現能力； Quick Audience，集阿里巴巴消費者洞察及營銷經驗，提供一站式人群圈選、洞察及營銷投放能力，連接阿里巴巴商業，實現用戶增長。

原文鏈接

本文為云棲社區原創內容，未經允許不得轉載。

網站欄目：數據中臺的存儲系統和計算平臺枚舉
當前URL：http://m.newbst.com/article32/jesjpc.html

成都網站建設公司_創新互聯，為您提供建站公司、云服務器、品牌網站建設、App開發、動態網站、ChatGPT

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

數據中臺的存儲系統和計算平臺枚舉