大數(shù)據(jù)定義及其特征
大數(shù)據(jù)顧名思義就是數(shù)量極其龐大的數(shù)據(jù)資料。從上世紀80年代開始,每隔40個月世界上儲存的人均科技信息量就會翻倍 (Hibert & Lopez, 2011)。2012年,每天會有2.5EB量的數(shù)據(jù)產(chǎn)生 (Andrew & Erik, 2012)。現(xiàn)在,2014年,每天會有2.3ZB量的數(shù)據(jù)產(chǎn)生 (IBM, 2015)。這是一個什么概念? 現(xiàn)在一般我們電腦的硬盤大小都以GB,或者TB為單位了。1GB的容量可以儲存約5.4億的漢字,或者170張普通數(shù)碼相機拍攝的高精度照片,或者300-350首長度為5-6分鐘的MP3歌曲。 那GB和TB, EB,ZB的關系又是怎樣?
1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺1TB硬盤容量的電腦,那1ZB就是大致等于10億臺電腦的容量,遠遠超出了我們一般的想象。
早期,IBM定義了大數(shù)據(jù)的特性有3個:大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來又有學者把價值(Value)加到大數(shù)據(jù)的特性里。隨著時間的推移和人們思考的進一步完善,又有三個大數(shù)據(jù)的特性被提出: 易變性(Variability),準確性(Veracity)和復雜性(Complexity)。
作者認為價值本質(zhì)上是數(shù)據(jù)被分析后體現(xiàn)出來的有用信息知識的程度,和其他幾個特性有根本區(qū)別。其他幾個特性可以說是數(shù)據(jù)工作者具體實踐中面臨的挑戰(zhàn),而價值則是征服這些挑戰(zhàn)后獲得的回報。