大數據定義及其特征
大數據顧名思義就是數量極其龐大的數據資料。從上世紀80年代開始,每隔40個月世界上儲存的人均科技信息量就會翻倍 (Hibert & Lopez, 2011)。2012年,每天會有2.5EB量的數據產生 (Andrew & Erik, 2012)。現在,2014年,每天會有2.3ZB量的數據產生 (IBM, 2015)。這是一個什么概念? 現在一般我們電腦的硬盤大小都以GB,或者TB為單位了。1GB的容量可以儲存約5.4億的漢字,或者170張普通數碼相機拍攝的高精度照片,或者300-350首長度為5-6分鐘的MP3歌曲。 那GB和TB, EB,ZB的關系又是怎樣?
1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺1TB硬盤容量的電腦,那1ZB就是大致等于10億臺電腦的容量,遠遠超出了我們一般的想象。
早期,IBM定義了大數據的特性有3個:大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來又有學者把價值(Value)加到大數據的特性里。隨著時間的推移和人們思考的進一步完善,又有三個大數據的特性被提出: 易變性(Variability),準確性(Veracity)和復雜性(Complexity)。
作者認為價值本質上是數據被分析后體現出來的有用信息知識的程度,和其他幾個特性有根本區別。其他幾個特性可以說是數據工作者具體實踐中面臨的挑戰,而價值則是征服這些挑戰后獲得的回報。