指所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物大数据。但对于投资人和创业者而言,大数据是个热门的融资标签;对于大多数互联网公司或者工程师而言,大数据实际上只有一个意思,就是把一堆乱七八糟的数据扔到HDFS上面然后进行计算等。
对于消费者或者互联网所谓的“用户”来说,大数据却是另外一个意思。大数据的意思就是尽可能地搜集跟终端消费者相关的隐私,然后进行营销。从理论上说,大数据公司通过搜集用户行为,可以更好地了解消费者的需求,增强用户体验。但是在实践上,这些所谓的智能推荐还停留在很初级的阶段,因此会有人在淘宝上搜索棺材结果在微博上不停地看到跟丧葬相关的广告。对于微博这样的公司,还意味着它会倾向于通过直接或者间接地暴露你的隐私来获得商业利益。据说,评价一家国内公司的大数据能力是跟被查水表的频繁程度正相关的。就目前而言,大数据对于终端消费者更多的是“被实名”。
对于投资人和创业者而言,大数据就和前几年流行的SoLoMo,这几年火爆的P2P一样,大数据是资本泡沫的催化剂。如今任何一家(移动)互联网公司都忙着把自己标榜为大数据公司,或者干脆说自己是一家数据公司。遗憾的是,大多数中国的互联网公司都是流量驱动的企业。与其说这些公司是大数据公司,不如说它们是数据采集公司。是的,每一家互联网公司都是数据公司,因为数据(Data)是比信息(Information)要狭隘得多的词汇。换句话说,任何一家IT行业的公司天然地都是数据公司。但是非IT公司同样可以是数据公司,例如房地产企业和汽车销售公司——毕竟他们优质低价地将顾客的信息转卖给任何感兴趣的个人或实体。遗憾的是,中国并没有几家Pre-Play的数据公司,因此中国不太可能出现Palantir这样伟大的企业。我不幸见过一两家国产独角兽企业的技术/数据负责人,他们似乎并不了解这家CIA投资的创业公司,但这并不妨碍他们把自己的公司定位为世界级的大数据公司。我可以臆测,国内这些独角兽企业的道德底线远远低于(为美帝情报机构服务的)Palantir,只是它们还没有足够的人才和技术来充分挖掘数据中的有效信息。