作者:李麗
我們提供的服務(wù)有:成都做網(wǎng)站、成都網(wǎng)站建設(shè)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、峨邊彝族ssl等。為近千家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的峨邊彝族網(wǎng)站制作公司
鏈接:
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。
"大數(shù)據(jù)"是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實際應(yīng)用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實時處理。最后一個特點是指數(shù)據(jù)真實性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。
"大數(shù)據(jù)"是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,"大數(shù)據(jù)"指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。
亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser提到一個簡單的定義:大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。
研發(fā)小組對大數(shù)據(jù)的定義:"大數(shù)據(jù)是最大的宣傳技術(shù)、是最時髦的技術(shù),當(dāng)這種現(xiàn)象出現(xiàn)時,定義就變得很混亂。" Kelly說:"大數(shù)據(jù)是可能不包含所有的信息,但我覺得大部分是正確的。對大數(shù)據(jù)的一部分認知在于,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當(dāng)你的技術(shù)達到極限時,也就是數(shù)據(jù)的極限"。 大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫相比,開源的大數(shù)據(jù)分析工具的如Hadoop的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價值在哪里。
二、大數(shù)據(jù)分析
從所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基于如此的認識,大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?
1、可視化分析
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了
2、數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計學(xué)家所公認的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值。另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如果一個算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價值也就無從說起了。
3、預(yù)測性分析能力
大數(shù)據(jù)分析最終要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析,從大數(shù)據(jù)中挖掘出特點,通過科學(xué)的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。
4、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實和有價值。
大數(shù)據(jù)分析的基礎(chǔ)就是以上五個方面,當(dāng)然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。
三、大數(shù)據(jù)技術(shù)
1、數(shù)據(jù)采集:ETL工具負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
2、數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。
3、基礎(chǔ)架構(gòu):云存儲、分布式文件存儲等。
4、數(shù)據(jù)處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(xué)(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
5、統(tǒng)計分析:假設(shè)檢驗、顯著性檢驗、差異分析、相關(guān)分析、T檢驗、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
6、數(shù)據(jù)挖掘:分類
(Classification)、估計(Estimation)、預(yù)測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or
association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text,
Web ,圖形圖像,視頻,音頻等)
7、模型預(yù)測:預(yù)測模型、機器學(xué)習(xí)、建模仿真。
8、結(jié)果呈現(xiàn):云計算、標簽云、關(guān)系圖等。
四、大數(shù)據(jù)特點
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個V來總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
1、
數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。
2、
數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。
3、
價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
4、
處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進其突破性發(fā)展。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價值的信息,也體現(xiàn)在如何加強大數(shù)據(jù)技術(shù)研發(fā),搶占時代發(fā)展的前沿。
五、大數(shù)據(jù)處理
大數(shù)據(jù)處理之一:采集
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設(shè)計。
大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿足部分業(yè)務(wù)的實時計算需求。
導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達到百兆,甚至千兆級別。
大數(shù)據(jù)處理之三:統(tǒng)計/分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
大數(shù)據(jù)處理之四:挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預(yù)測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
整個大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理
六、大數(shù)據(jù)應(yīng)用與案例分析
大數(shù)據(jù)應(yīng)用的關(guān)鍵,也是其必要條件,就在于"IT"與"經(jīng)營"的融合,當(dāng)然,這里的經(jīng)營的內(nèi)涵可以非常廣泛,小至一個零售門店的經(jīng)營,大至一個城市的經(jīng)營。以下是關(guān)于各行各業(yè),不同的組織機構(gòu)在大數(shù)據(jù)方面的應(yīng)用的案例,在此申明,以下案例均來源于網(wǎng)絡(luò),本文僅作引用,并在此基礎(chǔ)上作簡單的梳理和分類。
大數(shù)據(jù)應(yīng)用案例之:醫(yī)療行業(yè)
[1] Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的首個客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫(yī)院,針對早產(chǎn)嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。
[3] 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測到你的血液中藥劑已經(jīng)代謝完成會自動提醒你再次服藥。
大數(shù)據(jù)應(yīng)用案例之:能源行業(yè)
[1] 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當(dāng)你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等,從而推斷出在未來2~3個月時間里,整個電網(wǎng)大概需要多少電。有了這個預(yù)測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預(yù)測后,可以降低采購成本。
[2] 維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級計算機,然后對氣象數(shù)據(jù)進行分析,找出安裝風(fēng)力渦輪機和整個風(fēng)電場最佳的地點。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時便可完成。
大數(shù)據(jù)應(yīng)用案例之:通信行業(yè)
[1] XO Communications通過使用IBM SPSS預(yù)測分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過提供單個端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴展平臺,幫助通信企業(yè)制定更科學(xué)、合理決策。
[2] 電信業(yè)者透過數(shù)以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業(yè),這是全新的資料經(jīng)濟。
[3] 中國移動通過大數(shù)據(jù)分析,對企業(yè)運營的全業(yè)務(wù)進行針對性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責(zé)人,使他在最短時間內(nèi)獲知市場行情。
[4] NTT docomo把手機位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務(wù)。
《深入NoSQL》(Shashank Tiwari)電子書網(wǎng)盤下載免費在線閱讀
鏈接:
提取碼:imed ?
書名:深入NoSQL
作者:Shashank Tiwari
譯者:巨成
豆瓣評分:6.1
出版社:人民郵電出版社
出版年份:2012-11
頁數(shù):294
內(nèi)容簡介:
《深入NoSQL》是一本全面的NoSQL實踐指南。書中主要關(guān)注NoSQL的基本概念,以及使用NoSQL數(shù)據(jù)庫的切實可行的解決方案。書中介紹了基于MapReduce的可伸縮處理,演示Hadoop用例,還有Hive和Pig這樣的高層抽象。包含許多用例演示,同時也會討論Google、Amazon、Facebook、Twitter和LinkedIn的可伸縮數(shù)據(jù)架構(gòu)。
作者簡介:
Shashank Tiwari,創(chuàng)業(yè)者、開發(fā)者、技術(shù)作家、演講者和導(dǎo)師,技術(shù)型創(chuàng)業(yè)公司Treasury of Ideas()的創(chuàng)始人。
他是一位經(jīng)驗豐富的軟件開發(fā)者和企業(yè)家,長期關(guān)注高性能應(yīng)用、分析、Web應(yīng)用以及移動平臺,對數(shù)據(jù)可視化和統(tǒng)計機器學(xué)習(xí)有著濃厚的興趣,喜歡喝咖啡、吃甜點、騎自行車。他撰寫了許多技術(shù)文章和著作,并且應(yīng)邀在全球各地的技術(shù)會議上進行演講。
給你推薦一份資料,叫《深入淺出MongoDB應(yīng)用實戰(zhàn)開發(fā)(基礎(chǔ)、開發(fā)指南、系統(tǒng)管理、集群及系統(tǒng)架構(gòu))》有22課時,側(cè)重于講解MongoDB的常用特性及高級特性,從實際開發(fā)的角度出發(fā)對MongoDB進行全方位深入剖析。具體內(nèi)容如下:可以聯(lián)系我 1511065175
MongoDB基礎(chǔ):
第一講:nosql與MongoDB(nosql興起的背景、各種nosql數(shù)據(jù)庫介紹,MongoDB的特點)
第二節(jié):MongoDB安裝配置 (MongoDB安裝使用,基本系統(tǒng)管理的技巧,web控制臺使用)
第三講:MongoDB shell詳解 (介紹MongoDB shell使用及命令,備份恢復(fù)、數(shù)據(jù)導(dǎo)入導(dǎo)出)
第四講:MongoDB文檔、集合、數(shù)據(jù)庫的概念(介紹文檔、集合、數(shù)據(jù)庫等基本概念,庫文件存儲方式,命令規(guī)則)
第五講:Mongodb 數(shù)據(jù)類型介紹 (詳細介紹MongoDB支持數(shù)據(jù)類型)
MongoDB開發(fā)指南:
第六講:MongoDB增、刪、改文檔(講解MongoDB中增加、刪除、修改文檔的命令,插入原理、批量修改、修改器使用)
第七講:MongoDB查詢語法一 (詳細講解MongoDB強大的查詢功能,$in、$or、$ne、$lt、$gt等操作符組合查詢)
第八講:MongoDB查詢語法二(詳細講解MongoDB強大的查詢功能,正則表達式查詢、數(shù)組查詢、內(nèi)嵌文檔查詢)
第九講:MongoDB查詢語法三(詳細講解MongoDB where查詢,游標操作、分頁查詢及代碼示例、游標內(nèi)幕)
第十講:MongoDB索引(詳細講解MongoDB的索引原理、管理、索引查詢分析工具、強制索引使用等)
第十一講:MongoDB聚合統(tǒng)計(講解MongoDB聚合統(tǒng)計功能)
第十二講:MongoDB高級指南-命令工作原理(介紹數(shù)據(jù)庫命令的工作原理)
第十三講:MongoDB高級指南-固定集合、GridFS(介紹固定集合、GridFS原理及應(yīng)用)
第十四講:MongoDB高級指南-服務(wù)端腳本(介紹服務(wù)端腳本dbeval、javascript存儲)
MongoDB系統(tǒng)管理:
第十五講:MongoDB系統(tǒng)管理高級技巧1(系統(tǒng)監(jiān)控)
第十六講:MongoDB系統(tǒng)管理高級技巧2(數(shù)據(jù)庫安全、備份恢復(fù)、數(shù)據(jù)修復(fù))
MongoDB集群及系統(tǒng)架構(gòu):
第十七講:MongoDB復(fù)制功能(詳細講解MongoDB主從復(fù)制建立、管理、維護)
第十八講:MongoDB副本集功能(詳細講解MongoDB副本集建立、管理、維護)
第十九講:MongoDB分片功能(詳細講解MongoDB分片建立、管理、維護)
第二十講:MongoDB內(nèi)幕( 深入剖析MongoDB系統(tǒng)架構(gòu)、數(shù)據(jù)文件結(jié)構(gòu)原理)
MongoDB應(yīng)用案例:
第二十一講:基于MongoDB通用帳號管理系統(tǒng)開發(fā)1
第二十二講:基于MongoDB通用帳號管理系統(tǒng)開發(fā)2
SQL的獨特優(yōu)勢包括:
1. SQL能夠加強與數(shù)據(jù)的交互,并允許對單個數(shù)據(jù)庫設(shè)計提出問題。這是很關(guān)鍵的特征,因為無法交互的數(shù)據(jù)基本上是沒用的,并且,增強的交互性能夠帶來新的見解、新的問題和更有意義的未來交互。
2. SQL是標準化的,使用戶能夠跨系統(tǒng)運用他們的知識,并對第三方附件和工具提供支持。
3. SQL能夠擴展,并且是多功能和經(jīng)過時間驗證的,這能夠解決從快寫為主導(dǎo)的傳輸?shù)綊呙杳芗蜕钊敕治龅葐栴}。
4. SQL對數(shù)據(jù)呈現(xiàn)和存儲采用正交形式,一些SQL系統(tǒng)支持JSON和其他結(jié)構(gòu)化對象格式,比NoSQL具有更好的性能和更多功能。
NoSQL特點:
易擴展
NoSQL數(shù)據(jù)庫種類繁多,但是一個共同的特點都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性。數(shù)據(jù)之間無關(guān)系,這樣就非常容易擴展。也無形之間,在架構(gòu)的層面上帶來了可擴展的能力。
大數(shù)據(jù)量,高性能
NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這得益于它的無關(guān)系性,數(shù)據(jù)庫的結(jié)構(gòu)簡單。NoSQL的Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。
靈活的數(shù)據(jù)模型
NoSQL無需事先為要存儲的數(shù)據(jù)建立字段,隨時可以存儲自定義的數(shù)據(jù)格式。而在關(guān)系數(shù)據(jù)庫里,增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據(jù)量的表,增加字段簡直就是一個噩夢。這點在大數(shù)據(jù)量的web2.0時代尤其明顯。
高可用
NoSQL在不太影響性能的情況,就可以方便的實現(xiàn)高可用的架構(gòu)。比如Cassandra,HBase模型,通過復(fù)制模型也能實現(xiàn)高可用。
文章題目:深入NoSQL,深入貫徹落實十九屆六中全會精神
標題鏈接:http://m.newbst.com/article16/phhegg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站改版、網(wǎng)站建設(shè)、品牌網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計公司、面包屑導(dǎo)航、外貿(mào)網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)