互联网的发展带来了海量的廉价数据,也引发了关于大数据未来商业应用前景的热烈讨论。然而,对于大数据的讨论很多都流于概念的炒作,并没有深入到数据的本质,基于大数据的互联网营销与品牌管理,也远不像人们想象的那么容易。
随着科技和互联网的发展,我们现在拥有越来越多的数据。互联网是个低成本的连接,大家可以在互联网上自发的产生内容、展开互动,所以互联网上的数据流动性非常强。
当我们看数据的时候,不仅要考虑数据量的丰富程度,同时也要考虑数据的流动性和新颖程度。
互联网是个交互的载体,所以我们通过数据可以发现很多可能的商业应用前景。现在对于大数据的讨论有很多,但是我想说的一点是,很多有关大数据的讨论仅是概念的炒作,并没有真正深入到数据的本质。
所以在开始之前,我想先举几个反例,而这几个例子在很多书籍里面是作为经典的开篇案例来被论述的。
从几个“经典”案例谈起
谷歌在2009年推出了一款预测流感爆发的数据产品,原理是如果某个地方对流感相关的关键词的搜索量如果突然增加,那么这里就可能爆发流感。2014年,一些科学家检索了过去5年的预测结果,发现其中92%都是错的,而且很多大的流感并没有预测到。
为什么会出现这样高的错误率?
因为流感的爆发是很复杂的事,与人口密度、人口流动、气温、饮食、卫生条件等很多因素相关,而关键词的搜索频率提供的信息极其有限,用来预测很有可能出错。
还有一个案例很多人听过,啤酒与尿布的故事,说美国的爸爸给小孩买尿布的时候会顺便给自己买啤酒。但是,本人实际分析多套美国超市销售数据后从未发现这两个品类间有显著的相关性。所以这也只是一个噱头。
还有很多类似的讨论或者炒作,因此希望大家可以更理性的去看。
中国的大数据产业
再回头看国内的数据产业。
虽然大数据话题已经被讨论了好几年,但实际上基于数据的变现面还是比较狭窄的,远远没有我们想象当中的那么美好。
真正能用数据变现、赚钱的,大都集中在程序化广告、精准营销、用户画像领域。其它的领域还是停留在概念阶段,比如我们讨论很多的消费金融、大数据征信,实现的难度很大。
主要原因还是因为缺乏数据——很难有一家公司、一个机构,能把一个消费者在生活各方面的消费信息都收到,例如支付宝上的芝麻信用收集到的是你用支付宝时的交易记录,而没有财付通或者现金的交易信息。
所以说,在普遍缺数据的背景下,我们应该理性的回归到数据问题本身。这其中一个很重要的原因是,数据的标准化、规模化非常难。
一套数据对一个人可能值10块钱,对另外一个人就可能值10万,因为两个人所处的角度不同,对数据的分析挖掘能力不同,提取价值的能力不同,有各种原因导致数据很难被标准化。缺乏标准就难以交易,缺乏交易就能成规模。
正确认识数据的价值
在我看来,数据没有直接的价值,数据不等于价值,数据到价值之前还有很长的一条路要走。
“大”数据本身是个非常模糊的命题。而且,数据本身是个科技范畴内的东西,但在很多时候却被当成概念进行炒作。
大数据的起点是业务数据化,终点是数据业务化,也就是说,最后能通过已有的数据产生新的业务点、现金流、利润。这个过程不是一蹴而就的,大数据不是黑和白、零和一的过程。这是一个需要循序渐进、逐渐积累内功修炼的过程。
我们可以以一个金字塔的方式形容它。
首先是数据源,解决数据收集机制的问题。不同公司有不同渠道收集数据。数据收集这个事情想象空间非常大,绝对不仅限于那种比较传统的财务数据、收银台的流水数据,或者GPS定位的数据,实际上可收集的数据有很多,我们应该用发散性思维去想一想,到底怎么样收集数据。
当然最关键的还是要建立一套长效、低成本的数据收集机制。很多行业现在缺数据,为什么?关键在于没有机制,或者说没有跟终端市场互动的机制。如果销售都交给渠道,那自然没有有效的数据收集。
数据有了,还要有效的管理起来。现在有很多云计算、云服务的平台,就是要帮你解决管理问题。但是我们需要明白一点,他们只负责你数据的存储、计算等,不负责给你收集数据,也不负责给你分析数据、挖掘数据。他们负责的是基础设施,那之上的数据业务还得公司自己打造。
数据分析能力:大数据的核心竞争力
很多时候数据的用处是完全靠你自己分析出来的,这套数据有没有用很大情况下取决于你分析的能力怎么样。所以,分析能力、挖掘能力、建模能力,是一个核心竞争力。
那具体来讲,我们为什么要分析数据?
第一,大数据时代实际上是一个大噪音时代。
大家不要把大数据想得太美好,特别是当你真要去做数据工作的时候。小数据时代,数据不多,能看出有趋势就有趋势,没趋势就没趋势。但是,数据量非常大的时候,当你打开一套数据的时候,迎面而来的可能全是噪音。
数据越大,噪音越大,也越考验你的数据挖掘和分析能力。这个能力既是你的技术能力,同时也是你对市场的理解能力。要把两者有效地结合起来,才有可能分析得好,预测得好。
第二,大数据不等于全部数据。
前几年刚刚开始有大数据这个概念的时候,市场上有一个非常错误的观点,就是大数据时代我们不需要考虑抽样了。这是非常错误的。因为再大的数据也还是一个样本,所以你一定需要懂抽样理论,了解在当前的观察样本情况下,会对你的业务结果产生什么样的影响。
第三,数据的外生性和内生性。
数据本身并不一定能表达因果关系,很多时候它只是个相关性。相关性不影响预测,但影响决策。二者之间的关系需要谨慎把握。
案例:美高梅赌场的精准营销
举一个赌场的例子。有一个大型的博彩集团叫做美高梅集团,在澳门、拉斯维加斯都有。
做赌场生意,关键是什么?人流,因为赔率相对比较稳定,只要有足够的人流量,赌场赚钱。所以这个生意跟零售业很像,沃尔玛做的也是人流量的生意。
对于赌场来讲,他们的数据分析里面非常关键的一点就是引流和降低流失率,尽量提高客户留存率。
赌博行业是一个市场竞争非常激烈的行业。开赌场的人太多了,像拉斯维加斯那条大街上面,很多家赌场,大大小小、金碧辉煌,赌场为了能够更好地留住客户,一般都不只是有赌场,还有餐饮、酒店、演出、购物等一站式服务。当然其中肯定是赌博的利润最大了,所以为了争取客户、留存客户,精准营销是非常重要的。
赌场关注精准营销这么多年,他们现在要做的一个工作是,把原有的精准营销模型更进一步地去优化。其中很重要的一点是,我需要去量化我的促销力度跟赌博总消费之间的关系。
这个问题其实很复杂。原因有:
第一,数据很多很杂很乱。
第二,促销的结果有时候因果是模糊的。
第三,赌客来赌场消费,他的决策过程是很复杂的。我选择你家赌场,可能不是因为你家赌场有多好,可能是因为你家的饭好吃,可能是因为你家的酒店好住,可能是因为你家的演出好看。
还有一个非常复杂的问题是,新赌客越来越多,历史上他们没有出现过,怎么给他们做精准营销?
赌场使用的模型是很经典的针对人流量生意的数据模型,叫RFM模型(Recency-Frequency-Monetary)。
Recency就是最近一次消费的时间,时间越近你的价值越高;Frequency也就是消费频率;Monetary就是你花的钱。但是你也可以看出,这样也有一个问题,就是你没有办法区分天性豪赌和促销敏感的人。
所以,他们的新模型就要解决这些类似的问题。那具体怎么解决?
刚才我们说到内生性,实际上它就需要采取一种所谓的“差别中的差别”(difference in differences)的方法。
就是说,我需要在RFM分数类似的这些人里面再去看你们之间的差别。因为只有RFM分数相同的人,才有比较性。同时使用协同过滤等技术来解决新顾客问题,等等。
现在,我们有一个新的模型,但是万一最后用起来不好呢?
这个时候要去做随机实验,将部分顾客随机分三组,分别使用新模型、老模型、无模型进行精准营销。然后对比一下,哪个组的ROI(转化率)更高,才能验证新模型到底好不好。
最后发现,的确是新模型更好,所以在2015年加上了一个新模型以后,他营销的ROI提高了58%。
我们讲数据分析、数据挖掘、数据建模,实际上我们目的最终不是数据,而是希望通过数据理解背后产生数据的东西。
是什么产生了数据?人产生了数据。
我们总是希望通过数据,找一下背后人的行为和特征,然后基于这些去做数据的变现。
所以,数据分析的逻辑不是以数据预测数据,而是通过数据预测人,人再来产生新数据。我们必须关注产生数据的人,这才是数据分析的本质。
任何的数据模型,都应该考虑具体的业务场景和消费者的微观行为。好的大数据模型,一定是有好的技术,同时里面融入非常好的商业逻辑和经验,这绝对不是个IT程序员能简单解决的。
案例:社交网络的大数据征信
最后讨论一个金融消费品的数据模型:社交网络的大数据征信。
就是你希望通过在社交网络上给一个人的信用打个分数。这个很重要,因为现在要讲消费信贷、普惠金融,必须要对一个人的信用情况做一个判断,做个人风控,但是中国之前的个人信用评价系统相对比较简单和落后。
现在我们希望跳出传统的金融数据,拿到一些其它的数据。这个人的人际关系、朋友圈、心理状态、生活状态,可能对他的信用都是个很好的反映。那这些东西从哪来呢?现在是社交网络时代,很有可能都是从社交网络而来。所以,现在就有个很热门的话题——社交网络的征信。
这必然会涉及到社交网络的征信模型。这里我们更多的不是要分析行业,而是怎么样去社交网络上进行建立征信的数据模型。
社交网络是特别复杂的,所以说,你要去社交网络上给人的信用建立一个数学模型,首先得给社交网络建立一个模型。
首先,你必须要能够处理社交网络的噪声,社交网络的噪声是非常大的。
另外,假设有一天大规模实现了社交网络征信,大家交朋友的方式也会随之改变,这是内生变化。我们也得把这个可能的内生变化加入到数据模型里面去,让整个过程自动化。
要给社交网络建立一个模型,我们就要想,人为什么要建立关系?人跟人之间为什么会形成社交关系?因为人和人之间的相似性。
我们用特定的统计模型模拟人和人的相似性。先有了这个社交网络的模型,我们再去建征信的模型(课上有详细讨论,此处省略)。我们要考虑你的信用到底怎么样?以及我对你的信用的判断,准确率怎么样?比如说我判断你信用非常好,但是我知道这个判断的结果的误差很大,那这样的结果可能用处也不大,我需要的是一个误差比较小的判断。
如果我们采取了大规模的社交征信,实际上是放大了人跟人之间的差异。原先我可能跟这个人会成为朋友的,但现在因为要征信了,我得谨慎了,所以我就不跟他成为朋友了。在放大了人跟人之间的差异的情况下,我们再去看最后的征信结果就会发现,这其实是个正循环(课上有详细讨论,此处省略)。一旦人交友更谨慎了,实际上数据质量是更高了。
社交媒体数据征信建模在美国已经实施,他们用的模型就是按这样的思路来的。首先写一个社交网络的模型,然后再写一个征信的模型,同时要考虑到产生征信以后,对社交结构产生的影响。
你至少要把这三点写进去,才完成了一个基础性的数据工作,这里面当然还有很多问题我们可以去建立模型,比如弄虚作假、违约率、借款利息等等,所以这里面还有更多的拓展可以做。
最终我们想强调的一点是,数据的挖掘、建模与分析,是大数据营销过程中的核心竞争力。这里面牵涉到非常高深的技术,而且也不能缺少对商业的洞察。这一切最后都落在既懂数据,又懂业务的数据数据BI科学家肩上。而当下的中国很欠缺这方面的人才。
更多资讯请关注微信公众号mbadegree!