什么是“大数据”如何理解“大数据”?
时间:2024-04-06浏览次数:
 这意味着每两年数据量就会增长一倍。而且最近两年产生的数据量之和相当于我们人类发展历史上所有的数据量之和。  ZB量级是一个什么概念呢?一千GB,是一个T;一千T,是一个P;一般到了到了一千P以上,就可能都不太了解了,一千PB就是一个EB,一千Eb上面才是ZB,远远超出我们想象空间了。  数据的类型非常多,呈现多样化。我们平时所熟悉的数据中,结构化数据只占了不到10%,大部分都是非结构化数据。

  这意味着每两年数据量就会增长一倍。而且最近两年产生的数据量之和相当于我们人类发展历史上所有的数据量之和。

  ZB量级是一个什么概念呢?一千GB,是一个T;一千T,是一个P;一般到了到了一千P以上,就可能都不太了解了,一千PB就是一个EB,一千Eb上面才是ZB,远远超出我们想象空间了。

什么是“大数据”如何理解“大数据”?

  数据的类型非常多,呈现多样化。我们平时所熟悉的数据中,结构化数据只占了不到10%,大部分都是非结构化数据。

  结构化数据是存储在关系数据库当中的有非常规范的结构的数据。除了这样的数据大数据,百分之九十都是非结构化,尤其像科学研究、企业应用、web里面的文本、图像、视频等等的都是属于非结构化数据,类型是非常多的。

  我们以前的处理方式:把大量数据拿过来,慢慢进行批量分析,再花个半小时一小时,拿出报告,辅助企业决策。

  但是现在很多企业级应用都需要秒级决策。无论你所涉及的数量多大,都需要实现秒级决策。

  为了达到这样的效果谷歌公司曾开发了一款产品,叫dremel,他是用来做交互式查询的,就是我输入了一条语句去查询他要给我返回个结果,这叫交互式对吧。

  dremel可以把成百上千台服务器同时调度起来做集群运算,在一两秒之内,就可以处理一PB的数据。

  这个数据量相当于一百万张DVD光盘。你要去查他拼命的给你响应,时间就是一两秒钟就给结果了。他这个独特设计方式可以保证这么高响应速度。

  第四个特点就是价值密度低,大数据是数据特别多,这么多的数据实际上并不是都是很有价值的,很多都是我上网看了没有任何价值的数据。

  比如很多学校的监控摄像头,每天对着我们,每时每刻都在产生大量的数据,都保存学校的最中心机房里面。

  每天生成了这么多数据,要花掉这么多钱去买设备,买存储。如果没有发生任何的相关的刑事案件之类的,那么这些数据是没有任何意义的。

  但是万一哪天校园发生什么盗窃或者其他案件的一瞬间,那个视频就有价值了,但算下来全年可能都遇不上一次。

  那么讲完大数据特性了,我们再来看一下大数据的影响。我们说大树影响呢,可以从这几个方面分别阐述。

  科学研究的发展与变革是紧贴时代脚步的,人们从认识科学现象开始,就在不断地探究更加准确的研究模式,实验、理论论证、计算模拟……并逐渐形成提出问题——作出假设——实验证明的研究模式。

  有个著名的专家,就是Jim Gray,他是个什么人呢?他的理论突破了上述科研方式,为人们带来了全新的探究模式,并因此成为1998年的图灵奖获得者。

  图灵奖(Turing Award),全称A.M. 图灵奖(A.M Turing Award),是由美国计算机协会(ACM)于1966年设立的计算机奖项,名称取自艾伦·麦席森·图灵(Alan M. Turing),旨在奖励对计算机事业作出重要贡献的个人 。图灵奖对获奖条件要求极高,评奖程序极严,一般每年仅授予一名计算机科学家。图灵奖是计算机领域的国际最高奖项,被誉为“计算机界的诺贝尔奖”。

  那Jim Gray是因为什么获奖的呢?是因为他提出的理论就认为,大数据的到来使得我们科学研究,开始出现第四种方式。

  那么科学研究有哪四种方式呢?整个科学研究史上包括我们现在大数据时代,先后经历这么四种研究的方式。

  很简单对吧,以前我们想解决科学问题,无非就是去做实验,对吧。实验这种方式大家都比较清楚,以前伽利略去测试两个铁球同时落地就跑到比萨斜塔上面,就这种叫实验。

  发展理论的方式去研究这些问题,后面什么理论物理、几何理论,还有我们讲宇宙的第一定律,第二定律,能量守恒等等都属于这方面的。

  再往后呢,1940年代开始,发明计算机以后,人们开始用计算机去解决问题,进入这种计算时代。

  到了2000年附近,大数据时代到来以后,我们开始进入以数据为驱动的一个全新的科学研究时代。

  我们可能一开始都不知道问题是什么,也不知道问题在哪里,就已经开始研究了,完全是以数据驱动的。

  通过对大数据的分析,告诉你出了什么问题,而不像以前,知道遇到什么问题去找答案。现在你看根本不知道是什么问题,你只是有一堆的数据,靠数据驱动去发现问题,去解决问题,这个是区别。

  有个非常畅销的一本书,是国外的一个知名作家舍恩伯格写的,叫《大数据时代》,他讲述了一个大数据时代改变人类思维方式的理论。

  在这本书里呢,他就讲大数据时代,对我们人类思维方式,产生了非常大的影响,我们可以从三方面来概括,这三方面你必须是耳熟能详的,以后如果有人问你大数据到底影响你什么了?你一定要知道这3方面。

  什么意思呢?就是说在大数据时代之前,我们是没有办法对全样数据进行分析的,因为那时候我们没有足够的存储空间去存储所有的数据,也没有足够的计算能力去在我们人类可以接受时间之内去计算出我们所要答案。

  所以怎么办呢?我们统计学只能抽样。把全样中很多样本舍弃了,只抽样出一小部分数据去存储去计算去分析。

  然后呢,我们现在计算能力也不再局限于一台机器,我们可以通过整个集群构建起了一个庞大的计算网络,可以让成百上千个CPU同时工作,去完成你的这种数据处理。

  以前我们做抽样统计,我们会把一个算法的精度放的非常高。就是因为我们做的抽样分析得出结果,如果你的精确度不高的话,这个抽样的数据及你做的分析结果,你放大到全样上面以后,误差会被放大。

  所以,我们要追求精度,因为精度不够的话,放大以后就超出我们人类许可的范围了。

  我们现在大数据时代呢,是全样做分析,全样分析你分析出来结果误差多大就是多大,不存在误差被放大的问题,我们就不会去刻意追求精确度。

  所以我们这时候追求的是效率。我们现在对时效性非常关注,很多时候数据价值在瞬间,你如果没有在第一时间得出结果的话,他价值就消失了,所以我们的这个时候要要求他的效率,而不是只有它的精确度。

  我们在大数据时代更多是追求很多事物间的相关性,而非去知道他因果关系。我们不问他为什么会这样子,我们只关注他们之间这种相互的这种关联。

  比如说我们这个在淘宝上买东西时候,我们经常会发现买两本书以后他马上告诉你另外用户他也买了这本书,同时他也会告诉你买这个的还买了另外的书,这就是这种关联。

  他只告诉你有这么个人存在,但是呢,他不告诉你为什么,他只告诉你,有这么一种关联关系,所以我们说大数据很多时候只关注这种相关性,而不去关注因果。

  而且这种因果性也没有必要,对吧,你干嘛去追求说为什么用户买了另外一本书,你只需要知道他有这种相关性就可以了。

  由此我们可以看到,大数据时代的到来,影响的不仅是企业、社会,对于每个人都会带来相当大的影响。

  新时代的思维模式下往往蕴藏着很多一般人看不到的契机,只有深入的去了解它学习它,才能真正适应新时代的发展节奏。

Copyright © 2018-2024 美高梅(mgm)官方娱乐平台/IOS/安卓版/手机app下载 版权所有  xml地图  网站地图  备案号:    
地址:广东省广州市天河区88号  邮箱:admin@goodqg.com  电话:400-123-4567