在大多数人根本不知道大数据(BigData)到底是什么的时候,不可否认的是,大数据已经在21世纪掀起一场惊涛骇浪。根据研究机构IDC(国际数据资讯公司)的分析,这个世界上的资料正在以每两年就翻倍的惊人速度增加中。了解大数据、如何利用巨量资料,成了人人关心的重点议题。
尽管大数据的定义各家歧异,但基本上,大数据领域里的每个人都同意一点:大数据不仅仅是指更多资料而已。这篇文章整理出7个重要的大数据观点,希望大家不只是看着大数据的表皮,而能用不同的角度深入检视大数据。
大数据的3Vs定义是目前为止最受推崇且最广为人知的说法。3Vs由Gartner的分析师DougLaney最早在2001年时提出,分别代表资料量Volume、资料传输速度Velocity、资料类型Variety。从那之后,便有人在3Vs之外陆续提出更多「V」,Veracity、Validity、Value、Visibility等大数据,其中又以Veracity(真实性)最被普遍认同。
3Vs定义在上一篇文章中有仔细介绍,在这就不详述了,请参考《巨量资料的时代,用「大、快、杂、疑」四字箴言带你认识大数据》。
大数据并不是什么崭新的概念,好几十年前CERN的科学家就在处理每秒上看PB(PetaBytes)巨量资料。那为什么一直到近几年「大数据」这颗才被投到科技圈,轰得人人三句不离大数据?
现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体Hadoop跟NoSQL资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是「大数据」一词因应而生。
现今「大数据」所涉及的资料已经和过去的资料已经不同了。根据Hortonworks公司战略副总裁ShaunConnolly的说法1,过去的资料大部分是人工手记下来的交易纪录(Transactions),现在则是机器替我们记录下来的交易资料;除此之外,还有人们跟事物、企业间的互动资料(Interactions),例如人们在网路上点击网页跟连结的纪录;最后则是机器自动生成、累积下来的观察资料(Observations),例如智慧型家居产品记录下来的室温变化等。
因此ShaunConnolly定义大数据是由交易、互动、观察资料所组成的资料型态。
SAP公司的高管SteveLucas不以资料型态来看待大数据,而是以目的(intent)跟时机(timing)。在过去,企业收集到的资料只能在事情发生后引以为鉴,但现在企业收集到的是「新讯号」2,可以在事情发生前得到前兆跟提示,进而做出行动来影响事情结果。例如某品牌广告在社群网站上的「赞」数、点阅率如果跌落谷底,公司便可以预期接下来产品销售量一定也会惨不忍睹;同样的情形在过去时,公司所得到的数据就是产品发售后的销售量。
根据451Research的数据专家MattAslett,他将大数据定义为「以前因为科技所限而忽略的资料」3,这个说法也受到许多人的赞同,因为多半提起大数据时,都是在讨论这些以前无法分析处理、囊括其中的资料。
其实他在文中并不是用BigData一字,而是使用「DarkData(暗数据)」。事实上许多公司都使用暗数据这个字,因为当资料变「暗」了,便表示一个漏掉的讯息、错失的机会,在企业策略中留下一个盲点4。一直以来,各企业雇用数据专家的目的就是希望能「点亮」这些暗数据(illuminatetheDarkData),观察到以前不曾注意过的趋势、做出更全面的考量。
也因此,SAP曾经做过一个调查显示,将近76%的企业高管们视大数据为「机会」。个人也满喜欢这个观点,毕竟现在各公司在推动大数据的原因,就是希望能掌握全面的讯息、把握住这些机会!
著名的摄影师和出版人,前《Time(时代)》、《Life(生活)》、《NationalGeographic(国家地理)》杂志摄影师,负责过有史以来最大摄影项目的RickSmolan,在他的著作《大数据的人性面孔》(TheHumanFaceofBigData)一书中,则给了大数据一个最完美的哲学定义——「大数据是帮助地球建构神经系统的一个过程,在这系统中,我们(人类)不过是其中一种感测器。」6
深奥吧?如果你读过《大数据的人性面孔》一书,相信你应该会对这个比喻点头如捣蒜。求方便的话,这本书也提供了App版本可以阅读,有兴趣可以到这里下载。
也有部份人认为,「大数据」一词被严重滥用,大数据只是商业智慧(Businessintelligence)或商业分析(Businessanalytics)演化后的新字7。
从GoogleTrend里可以看出,从2004年到现在,「BigData」一字的搜寻次数从2011年开始飙涨的同时,人们对「Businessintelligence」的兴趣则是持续降低。「Businessanalytics」趋势虽然小幅上涨,但短时间应该不可能赶上另外两个字的风潮。