什么是大数据?这是个好问题。对于大数据的定义似乎有很多,就像企业、非营利组织、政府机构和个人想要从中受益一样多。
大数据的一种流行解释是超大的数据集。国家标准和技术研究所的一份报告将大数据定义为由“大量的数据集——主要在容量、速度和可变性方面的特征——需要一个可伸缩的架构来进行有效的存储、操作和分析”组成。有些人将大数据定义为超过PB的数据量-一百万GB。
这些数据有很多来源:智能手机和社交媒体帖子;传感器,如交通信号和电表;销售点终端;消费者可穿戴设备,如电子手表、电子健康记录等等。
对于拥有丰富人才和技术的组织而言,这些数据背后隐藏着巨大的机遇,这些机会可以将他们庞大的数据存储转化为可操作的洞察力、改进的决策制定和竞争优势。
通过利用大数据的力量,医疗系统可以识别出有风险的病人,并更快地进行干预。警察部门可以预测犯罪,并在犯罪开始前阻止它。零售商可以更好地预测库存以优化供应链效率。可能性是无限的。
但要实现这一技术,组织需要有能力从海量数据中提取有用数据的专业人士——而这些难以捉摸的数据科学家供不应求。
1. Volume(数量):史无前例的数据爆炸意味着到2025年,数字宇宙将达到180兆字节(180后跟21个零)。今天,数据量的挑战不在于存储容量,而在于如何在巨大的数据集中识别相关数据并加以利用。
2. Velocity(速度):数据以不断加速的速度生成。每分钟谷歌都会收到380万个搜索查询。电子邮件用户发送1.56亿条信息。Facebook用户上传了24.3万张照片。数据科学家面临的挑战是找到收集、处理和利用海量数据的方法。
3. Variety(多样性):数据以不同的形式出现。结构化数据是指可以在数据库的列中整齐地组织的数据。这种类型的数据比较容易输入、存储、查询和分析。非结构化数据更难排序和从中提取值。非结构化数据的例子包括电子邮件、社交媒体帖子大数据、文字处理文档;音频、视频、照片文件和网页等等。
不管你对大数据有多少偏好,有一件事是肯定的:大数据已经来临了,而且只会越来越大。每个组织都需要理解大数据对他们意味着什么,以及它能帮助他们做什么。可能性真的是无穷无尽的。