大數據和區塊鏈之間的聯系終于被理解了
今天,許多人仍然不了解大數據,區塊鏈又來了。區塊鏈和大數據之間有什么關系?大數據時代,云計算成為大數據的基礎設施,這也使得大數據和云計算的核心思想一脈相承。大數據和區塊鏈之間有一個共同的關鍵詞:分發,這代表著從技術權威壟斷到去中心化的過渡。
區塊鏈讓數據流動有了真正的“自信”
區塊鏈以其可信、任性、安全、不可篡改的特性解放了更多的數據。用一個典型案例來說明區塊鏈是如何推動基因測序大數據的產生的。區塊鏈測序可以利用私鑰限制訪問權限,從而規避法律對個人獲取基因數據的限制,利用分布式計算資源低成本完成測序服務。區塊鏈的安全性使得測序成為工業化的解決方案,實現了全球范圍的測序,從而促進了數據的海量增長。
分布式存儲
大數據是指在一定時間范圍內,常規軟件工具無法捕捉、管理和處理的數據集合。它是一種海量、高增長、多樣化的信息資產,需要新的處理模式來擁有更強的決策、洞察和發現能力以及流程優化能力。大數據需要應對海量量化和快速增長的存儲,這就要求底層硬件架構和文件系統的性價比遠高于傳統技術,并能靈活擴展存儲容量。
區塊鏈是比特幣的底層技術架構,本質上是去中心化的分布式賬本。區塊鏈技術作為一種不斷增長的鏈式數據結構,按照順序組織成塊。網絡中的許多節點共同參與數據計算和記錄,并相互驗證其信息的有效性。從這個角度來看,區塊鏈技術也是一種特定的數據庫技術。由于分布式數據庫的安全性和方便性,很多業內人士看好它的發展,認為它是對現有互聯網技術的升級和補充。區塊鏈是一個純粹的分布式系統。
分布式計算
大數據的分析和挖掘是數據密集型計算,需要巨大的分布式計算能力。節點管理、任務調度、容錯和高可靠性是關鍵技術。Google是這種分布式計算技術的代表。通過增加服務器節點,可以線性擴展系統的總處理能力,在成本和可擴展性上有很大優勢?,F在大數據除了批量計算,還包括流計算、圖計算、實時計算、交互查詢等計算框架。
區塊鏈的共識機制是如何在所有分布的節點之間達成共識,通過算法產生和更新數據,并識別一個記錄的有效性,這不僅是一種識別的手段,也是一種防止篡改的手段。區塊鏈主要包括四種不同的共識機制,適用于不同的應用場景,在效率和安全之間取得平衡。以比特幣為例,采用“工作量證明”。只有控制了全網51%以上的計費節點,才有可能偽造一個不存在的記錄。
大數據和區塊鏈的區別
2011年,“大數據”首次上榜,當時正處于技術萌芽階段的爬坡階段。當時還統稱為“大數據和極端信息處理與管理”(“大數據”和極端信息處理與管理)。2012年更進一步,2013年幾乎達到過熱期的頂峰。2014年下滑后,從2015年開始“大數據”突然從曲線上消失,可以解讀為Gartner對大數據的定位從“新興”變成了“主流”。目前,大數據對于企業的意義已經從能力要素上升到戰略核心。相對而言,“區塊鏈”直到2016年才第一次出現在《技術成熟度曲線》中,直接進入“過熱期”。一般來說,“大數據”和“區塊鏈”的生命周期階段差異較大,中間有5年左右的差距。
大數據通常用來描述數據集足夠大,足夠復雜,難以用傳統方式處理。區塊鏈所能承載的信息數據有限,遠遠達不到“大數據”的標準。
大數據和區塊鏈的區別
結構化vs非結構化:區塊鏈是定義良好的塊,是由指針和典型的結構化數據組成的鏈,而大數據需要處理更多的非結構化數據。
獨立vs集成:為了保證區塊鏈系統的安全性,信息相對獨立,而大數據側重于信息的集成和分析。
直接vs間接:區塊鏈系統本身就是一個數據庫,而大數據是指對數據的深入分析和挖掘,是一個間接的數據。
Vs數據:區塊鏈試圖用數學說話,區塊鏈倡導“代碼即法律”,大數據試圖用數據說話。
匿名vs個性:區塊鏈是匿名的(公共賬本,匿名所有人,相對于傳統金融機構的公共賬戶,賬本是保密的)
,而大數據有意的是個性化。在區塊鏈中使用大數據技術
區塊鏈是一種不可篡改的、全歷史的分布式數據庫存儲技術,巨大的區塊鏈數據集合包含著每一筆交易的全部歷史,隨著區塊鏈技術的應用迅速發展,數據規模會越來越大,不同業務場景區塊鏈的數據融合會進一步擴大數據規模和豐富性。
區塊鏈以其可信任性、安全性和不可篡改性,讓更多數據被解放出來,推進數據的海量增長。
區塊鏈的可追溯性使得數據從采集、交易、流通,以及計算分析的每一步記錄都可以留存在區塊鏈上,使得數據的質量獲得前所未有的強信任背書,也保證了數據分析結果的正確性和數據挖掘的效果。
區塊鏈能夠進一步規范數據的使用,精細化授權范圍。脫敏后的數據交易流通,則有利于突破信息孤島,建立數據橫向流通機制,形成“社會化大數據”?;趨^塊鏈的價值轉移網絡,逐步推動形成基于全球化的數據交易場景。
區塊鏈提供的是賬本的完整性,數據統計分析的能力較弱。大數據則具備海量數據存儲技術和靈活高效的分析技術,極大提升區塊鏈數據的價值和使用空間。