大数据的核心是什么？

大数据的核心就是预测。大数据的本质是解决问题，大数据的核心价值就在于预测；大数据是把数学算法运用到海量的数据上来预测事情发生的可能性；大数据预测是基于大数据和预测模型去预测未来某件事情的概率。

大数据预测（大数据核心应用）

大数据预测是大数据最核心的应用，它将传统意义的预测拓展到“现测”。大数据预测的优势体现在，它把一个非常困难的预测问题，转化为一个相对简单的描述问题，而这是传统小数据集根本无法企及的。从预测的角度看，大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论，更是能用于帮助企业经营的决策。

1. 预测是大数据的核心价值

大数据的本质是解决问题，大数据的核心价值就在于预测，而企业经营的核心也是基于预测而做出正确判断。在谈论大数据应用时，最常见的应用案例便是“预测股市”“预测流感”“预测消费者行为”等。

大数据预测则是基于大数据和预测模型去预测未来某件事情的概率。让分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据分析的最大不同。

大数据预测的逻辑基础是，每一种非常规的变化事前一定有征兆，每一件事情都有迹可循，如果找到了征兆与变化之间的规律，就可以进行预测。大数据预测无法确定某件事情必然会发生，它更多是给出一个事件会发生的概率。

实验的不断反复、大数据的日渐积累让人类不断发现各种规律，从而能够预测未来。利用大数据预测可能的灾难，利用大数据分析癌症可能的引发原因并找出治疗方法，都是未来能够惠及人类的事业。

例如，大数据曾被洛杉矶警察局和加利福尼亚大学合作用于预测犯罪的发生；Google 流感趋势利用搜索关键词预测禽流感的散布；麻省理工学院利用手机定位数据和交通数据进行城市规划；气象局通过整理近期的气象情况和卫星云图，更加精确地判断未来的天气状况。

2. 大数据预测的思维改变

在过去，人们的决策主要是依赖 20% 的结构化数据，而大数据预测则可以利用另外 80% 的非结构化数据来做决策。大数据预测具有更多的数据维度，更快的数据频度和更广的数据宽度。与小数据时代相比，大数据预测的思维具有 3 大改变：实样而非抽样；预测效率而非精确；相关关系而非因果关系。

实样而非抽样

在小数据时代，由于缺乏获取全体样本的手段，人们发明了“随机调研数据”的方法。理论上，抽取样本越随机，就越能代表整体样本。但问题是获取一个随机样本的代价极高，而且很费时。人口调查就是一个典型例子，一个国家很难做到每年都完成一次人口调查，因为随机调研实在是太耗时耗力，然而云计算和大数据技术的出现，使得获取足够大的样本数据乃至全体数据成为可能。

效率而非精确

小数据时代由于使用抽样的方法，所以需要在数据样本的具体运算上非常精确，否则就会“差之毫厘，失之千里”。例如，在一个总样本为 1 亿的人口中随机抽取 1000 人进行人口调查，如果在 1000 人上的运算出现错误，那么放大到 1 亿中时，偏差将会很大。但在全样本的情况下，有多少偏差就是多少偏差，而不会被放大。

在大数据时代，快速获得一个大概的轮廓和发展脉络，比严格的精确性要重要得多。有时候，当掌握了大量新型数据时，精确性就不那么重要了，因为我们仍然可以掌握事情的发展趋势。大数据基础上的简单算法比小数据基础上的复杂算法更加有效。数据分析的目的并非就是数据分析，而是用于决策，故而时效性也非常重要。

相关性而非因果关系

大数据研究不同于传统的逻辑推理研究，它需要对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳，并关注数据的相关性或称关联性。相关性是指两个或两个以上变量的取值之间存在某种规律性。相关性没有绝对，只有可能性。但是，如果相关性强，则一个相关性成功的概率是很高的。

相关性可以帮助我们捕捉现在和预测未来。如果 A 和 B 经常一起发生，则我们只需要注意到 B 发生了，就可以预测 A 也发生了。

根据相关性，我们理解世界不再需要建立在假设的基础上，这个假设是指针对现象建立的有关其产生机制和内在机理的假设。因此，我们也不需要建立这样的假设，即哪些检索词条可以表示流感在何时何地传播；航空公司怎样给机票定价；沃尔玛的顾客的烹饪喜好是什么。取而代之的是，我们可以对大数据进行相关性分析，从而知道哪些检索词条是最能显示流感的传播的，飞机票的价格是否会飞涨，哪些食物是飓风期间待在家里的人最想吃的。

数据驱动的关于大数据的相关性分析法，取代了基于假想的易出错的方法。大数据的相关性分析法更准确、更快，而且不易受偏见的影响。建立在相关性分析法基础上的预测是大数据的核心。

相关性分析本身的意义重大，同时它也为研究因果关系奠定了基础。通过找出可能相关的事物，我们可以在此基础上进行进一步的因果关系分析。如果存在因果关系，则再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系中找到一些重要的变量，这些变量可以用到验证因果关系的实验中去。