互聯網IDC圈4月27日報道,互聯網的發展使得大數據引起人們廣泛關注。現如今大數據技術早已滲透到金融、通訊等行業以及生物學、物理學等領域。大數據在容量、多樣性和高增速方面的爆炸式增長全面考驗著現代企業的數據處理和分析能力,與此同時也為各個行業帶來了準確洞察市場行為的機會。迄今為止大數據技術與產品有哪些創新,工業大數據應用面臨哪些挑戰,金融行業大數據應用現狀如何等。圍繞這一系列問題,4月27日至28日,由工業和信息化部指導、中國信息通信研究院主辦的"2016大數據產業峰會"在北京國際會議中心盛大召開。
成都創新互聯從2013年創立,先為紫云等服務建站,紫云等地企業,進行企業商務咨詢服務。為紫云企業網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。在27日下午的“大數據技術與產品創新”論壇中,北京明略軟件系統有限公司聯合創始人兼CTO馮是聰博士分享了明略大數據安全平臺核心技術。
明略數據聯合創始人兼CTO 馮是聰
以下是馮是聰博士演講實錄:
馮是聰:
首先感謝數據中心聯盟給我們提供這個機會,讓我們分享我們的大數據平臺。我們與數據中心聯盟合作可以說是十分密切,就在今日上午我們在數據中心聯盟也通過了評測并一同簽署了數據聲明。
作為明略數據CTO我分享的內容更偏技術一些,首先向各位嘉賓介紹一下明略:我們公司是一家專注于關系挖掘的大數據解決方案提供商。其中有兩個關鍵詞,一個是關系挖掘。大家知道,自然界的關系都是由點和邊組成的,在座的每一個人都是一個點,人與人之間的關系就是一個邊,在任何領域都有關系挖掘。另外,我們提供解決方案,我們不僅提供產品,我們還會根據客戶業務問題,有針對性的提供解決方案,在這過程中,明略也會派我們的駐場數據科學家為客戶現場答疑解惑,我們在提供解決方案的同時,也提供駐場數據科學家服務,這也是我們跟很多廠商大的區別。
明略成立于2014年初,在這兩年的發展中,我們不斷的積累大數據方面的經驗,并先后自主研發了4款產品,分別是大數據安全平臺MDP,圍繞數據關聯關系挖掘產品SCOPA和分布式數據挖掘系統DataInsight,以及面向大數據的BI產品Discovery.很多客戶找到我們,我們會根據客戶的業務特點,給他定制化地提供一個解決方案。這個解決方案可能會涉及到我們這4款產品,我們這里跟很多廠商大的區別是,我們是深入業務,幫助客戶解決實際業務問題,而不僅僅是把產品售賣給客戶。
因時間關系,我就先簡單介紹一下我們大數據安全平臺MDP最核心的五個特性。
首先是關于MDP平臺架構的概述,MDP平臺架構共分為四層,淺藍色的是開源社區的部分。深顏色的是我們自己開發的,在自己開發的過程當中可以看到我們有幾個特點,我們這里有一個可視化運維。如果您有機群是幾萬臺或者是幾百臺機器搭成的,假如沒有一個很強的運維平臺,那么您將會面臨很大問題,嚴重的話很有可能導致無法繼續運營。其次,MDP做到了很好的安全性,我們這幾年服務的客戶基本上都是中大型客戶,每一個大型的客戶數據安全是非常重要的,我后面會詳細介紹。我們做了全員控制,還有數據運維,這里面有各種各樣的特點,因為時間的關系我就不一一介紹了。
明略MDP特性之安全性
我們認為做大數據首先一定要解決安全問題,因為大數據不像別的數據,它大的一個特點是把分散在各個信息孤島的數據聚集起來,統一管理。在過去數據丟失的時候,可能僅會影響公司的一個部門,但是當我們把數據全部集成在一起時,一旦丟失,所有的數據都可能丟失。尤其是公安等特殊領域,對數據的安全性要求是第一位的,如果安全性不過關,肯定是不能用的,我們這邊毫不謙虛的說,我們達到了軍工級的要求。我們的MDP產品有一個完整的安全架構體系,比如身份認證,加密解密,數據訪問和審計,等等。這個體系有很多的特點,因為時間的關系我只介紹三個特點。
大家都知道大數據平臺基本上都來源于開源社區。在開源社區版中,系統管理員和上層應用之間的權限管理沒有分開,是合在一起的。如果是運維管理員的話,完全可以看到平臺上各種應用的數據,這其實在很多條件下是非常不安全的。舉一個簡單的例子,假設我是一個公安局局長,公安局的所有數據都放在大數據平臺上,那么運維管理員就可以知道局長、甚至部長的所有數據,其實這是非常不安全的。我們第一個做的事情就是把這個權限分離了,運維人員只能運維這個機器,不能看到上層應用的數據。我們因為這個數據分開了,即使我們的開發人員,他也不能看到不該看的數據,這樣也能保證開發人員在現場實施的過程中看不到所有的數據,從而保障了數據的安全性。
我們在做查詢引擎時,遇到的問題就是客戶需要進行行與列同時的訪問控制,但目前很多引擎也只能做到按列訪問。為更好地解決客戶的這個問題,我們研究出了行和列同時訪問的引擎,并申請了三個專利,我們這也是全球第一家可以做出來的行和列同時訪問的大數據企業。就是你如果在訪問一個數據的時候,我們自動地加上行訪問的控制,我們把查詢引擎改掉了。在開發人員,不知道需要知道背后的權限管理是什么樣的。比如說一個機構很大,幾萬人,可以自動通過LDAP加入權限管理。這樣,不管是銀行普通的辦事人員還是行長,還是總行的人,每一次數據訪問,都可以做到行和列的同時控制。
對于大數據我們做了一個安全的審計,對于任何一個數據,只要做了增加、刪除、修改操作,甚至是訪問,我們都可以記住日志。數據一旦出現問題,我們可以做非常方便地審計。這里面可以看到,我們在數據審計,包括文件系統,包括所有的部署運維,比如啟動一個服務,停掉一個服務,增加一條信息,刪除一條信息,上面跑的硬件、軟件、數據、服務,這四個方面我們全部都做了日志,都可以隨時審計。就是你只要做了任何一個操作,一旦做過,一定會留下痕跡,很多要求苛刻的客戶都非常愿意購買這個特性。
明略MDP特性之高可用性
軟件現在分為兩類,一類是運營商級別的軟件,一類是非運營商級別。運營商對于高可用性是非常苛刻的,因為他要求你7×24小時,我任何時候訪問這個系統不會有任何問題。比如一個1集群有100個節點,其中有一個節點因為故障斷掉了,過一段時間把那個節點的故障排除了,重新啟動,上面跑的服務都可以自動恢復,數據也都可以保持一致,這個要求是非常苛刻的。大家知道,在開源社區里面有比較常見的一些服務,比如說Hbase、Hive等等都已經做了高可用性。但是對于右邊的這些服務基本上都沒有,比如Impala、Kerberos、LDAP、Flume等等,這個里面就面臨一個很常見的場景,就是如果發現100個節點的集群里面,其中2個節點停掉了,不能因為2個節點影響到整個機群的服務。還有,比如把這個機器下面的網線拔掉,過一會兒再插上去,能保證插上去之后,數據能夠自動恢復。還有一個就是對于硬盤,如果這個硬盤壞掉了,操作系統一定會收到這個故障信號。但是運營商測我們系統的時候是怎么測的呢?他就在硬盤正常運轉的時候把硬盤拔掉,這個時候操作系統是沒有收到故障信號的,過一會兒再插上去。還要求硬盤上的數據還是一致的,這些非常嚴苛的要求都是高可用性。除了常見的Hive、Hbase,我們把自己做的各種服務,全部都做了高可用性,從而保證我們的服務是高可用的。
我們在做服務調度的時候,我們用了一個Everything On Yarn的特性,任何一個用戶使用一個服務的時候,他可能調動了很多的服務,可能把所有的資源都消耗掉,這個時候就非常危險,會導致后起的服務因為分配不到資源而被餓死。我們這樣做了以后,就可以保證其中任何一個服務都可以通過這個來調度資源,就會保證一個太重服務不把其他的服務給餓死了。
明略MDP特性之易用性
我們所有的運維都是不需要任何腳本,也不需要任何代碼。還有我們有一個模塊是Dataone,這個跟我們剛才講的那個運維平臺NoahArk差不多,非常類似,都是可視化的。我們所有的數據遷移都是模板化、向導化的,你只需不停地點下一步就可以了,所有的數據遷移就可以完成了。
明略MDP特性之開放性
我們所有的組件都可以修改,所有的開源組件都是來自于開源社區,這就保證了客戶不會被某一個廠家綁定,隨時可以自主地升級系統,自主地添加組件,這樣就是一個開放性,我們不是一個閉環的產品。
明略MDP特性之高性能
高性能是我們非常自豪的,我們當時有一個客戶,他當時說有5千億的話單,要求在秒級查出來,他考察了很多廠商,最后是我們給他解決掉了。大家可以隨便估算一下,這5千億條的記錄,秒級響應得,需要什么樣的技術,當然只有懂技術的才知道這個難度。
因為時間的關系,大概給大家簡單介紹了一下我們MDP高性能、高可用、高安全、易用性、開放性等特性,謝謝大家!
當前題目:明略數據馮是聰:明略大數據安全平臺核心技術分享
文章網址:http://m.newbst.com/article32/sosssc.html
成都網站建設公司_創新互聯,為您提供自適應網站、網站排名、App開發、動態網站、關鍵詞優化、云服務器
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯