Java開發人員使用哪些大數據工具？

2021-03-08 分類：網站建設

1、MongoDB——最受歡迎的，跨平臺的，面向文檔的數據庫。

MongoDB是一個基于分布式文件存儲的數據庫，使用C++語言編寫。旨在為Web應用提供可擴展的高性能數據存儲解決方案。應用性能高低依賴于數據庫性能，MongoDB則是非關系數據庫中功能最豐富，最像關系數據庫的，隨著MongDB 3.4版本發布，其應用場景適用能力得到了進一步拓展。

3、Cassandra——開源分布式數據庫管理系統

最初是由Facebook開發的，旨在處理許多商品服務器上的大量數據，提供高可用性，沒有單點故障。

Apache Cassandra是一套開源分布式NoSQL數據庫系統。集Google BigTable的數據模型與Amazon Dynamo的完全分布式架構于一身。于2008開源，此后，由于Cassandra良好的可擴展性，被Digg、Twitter等Web 2.0網站所采納，成為了一種流行的分布式結構化數據存儲方案。

因Cassandra是用Java編寫的，所以理論上在具有JDK6及以上版本的機器中都可以運行，官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操作命令，類似于我們平時操作的關系數據庫，對于熟悉MySQL的朋友來說，操作會很容易上手。

4、Redis ——開源(BSD許可)內存數據結構存儲，用作數據庫，緩存和消息代理。

Redis是一個開源的使用ANSI C語言編寫的、支持網絡、可基于內存亦可持久化的日志型、Key-Value數據庫，并提供多種語言的API。Redis 有三個主要使其有別于其它很多競爭對手的特點：Redis是完全在內存中保存數據的數據庫，使用磁盤只是為了持久性目的; Redis相比許多鍵值數據存儲系統有相對豐富的數據類型; Redis可以將數據復制到任意數量的從服務器中。

Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分布數據集，除了能夠提供交互式查詢外，它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

Java開發人員使用哪些大數據工具？

10、Memcached ——通用分布式內存緩存系統。

Memcached是一套分布式快取系統，當初是Danga Interactive為了LiveJournal所發展的，但被許多軟件(如MediaWiki)所使用。Memcached作為高速運行的分布式緩存服務器，具有以下的特點：協議簡單，基于libevent的事件處理，內置內存存儲方式。

11、Apache Hive ——在Hadoop之上提供類似SQL的層。

Java開發人員使用哪些大數據工具？

Hive是一個基于Hadoop的數據倉庫平臺。通過hive，可以方便地進行ETL工作。hive定義了一個類似于SQL的查詢語言，能夠將用戶編寫的SQL轉化為相應的Mapreduce程序基于Hadoop執行。目前，已經發布了Apache Hive 2.1.1 版本。

12、Apache Kafka ——最初是由LinkedIn開發的高吞吐量，分布式訂閱消息系統。

Java開發人員使用哪些大數據工具？

Apache Kafka是一個開源消息系統項目，由Scala寫成。該項目的目標是為處理實時數據提供一個統一、高通量、低等待的平臺。Kafka維護按類區分的消息，稱為主題(topic)。生產者(producer)向kafka的主題發布消息，消費者(consumer)向主題注冊，并且接收發布到這些主題的消息。kafka以一個擁有一臺或多臺服務器的集群運行著，每一臺服務器稱為broker。

13、Akka ——用于在JVM上構建高并發，分布式和彈性消息驅動應用程序的工具包。

Java開發人員使用哪些大數據工具？

Akka 是一個用 Scala 編寫的庫，用于簡化編寫容錯的、高可伸縮性的 Java 和 Scala 的 Actor 模型應用。它已經成功運用在電信行業，系統幾乎不會宕機。

14、HBase ——開放源代碼，非關系型，分布式數據庫，采用Google的BigTable建模，用Java編寫，并在HDFS上運行。

Java開發人員使用哪些大數據工具？

與FUJITSU Cliq等商用大數據產品不同，HBase是Google Bigtable的開源實現，類似Google Bigtable利用GFS作為其文件存儲系統，HBase利用Hadoop HDFS作為其文件存儲系統;Google運行MapReduce來處理Bigtable中的海量數據，HBase同樣利用Hadoop MapReduce來處理HBase中的海量數據;Google Bigtable利用 Chubby作為協同服務，HBase利用Zookeeper作為對應。

15、Neo4j ——在Java中實現的開源圖形數據庫。

Java開發人員使用哪些大數據工具？