第一节 大数据思维的内涵与构成
当数据处理技术已经发生了翻天覆地的变化时,人们对数据的观点、思维方式也随之发生了转变。实际上,大数据与六个重大的思维转变有关,这六个转变是相互联系、互为因果,并相互作用的,它带来了传统思维方式的变革。
一、总体代替样本
数据处理技术的革新使得我们有能力,也有更大的需求去寻找所有的数据,利用全部数据进行分析,而不再仅仅依靠样本数据。
在过去,采样的目的就是利用最少的数据获取最多的信息,以降低信息获取的成本。但是,在我们可以用更低廉的成本获得大规模数据的时候,采样方法就失去了其原有的意义。数据处理技术已经发生了巨大的改变,但我们的思维与方法无法跟上这种改变。
采样一直存在着得到我们广泛认可但始终有意避开的缺陷,即采样忽视了细节的研究,但是现在这个缺陷越来越难以忽视了。虽然我们别无选择,只能使用采样分析法来进行考察,但是在很多领域,从收集一些数据到收集尽可能多的数据的转变已经发生了。如果可能,我们就会收集所有的数据,即“样本=总体”。
正如我们所看到的,“样本=总体”是指我们能对数据进行深度探讨,而采样几乎无法达到这样的效果。例如,用采样的方法分析整个人口的情况,正确率可达97%。对于某些事物来说,3%的错误率是可以接受的。但是无法得到一些微观信息,甚至会失去对某些类别信息深入研究的能力。生活中真正有趣的事情常藏匿在细节之中,这是采样分析无法捕捉到的。
所以,我们现在经常会放弃样本分析这条捷径,选择收集全面而完整的数据。我们需要足够的数据处理和存储能力,也需要更先进的分析技术。同时,简单廉价的数据收集方法也很重要。过去,这些问题中的任何一个都很棘手。在一个资源有限的时代,要解决这些问题需要付出很高的代价。但是现在,解决这些难题已经变得简单易行。曾经只有大公司才能做到的事情,现在绝大部分的公司都可以做到了。
通过使用所有的数据,我们可以发现如若不然,则将会在大量数据中淹没的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。这是一个大数据问题。而且,因为交易是即时的,所以你的数据分析也应该是即时的。
大数据技术的运用首先要数据全量在线。现在太多系统都是孤立的,银行对公、对私,还有卡业务都是分开的,当把所有业务糅合在一起时,会发现很多客观规律。现在有了大规模的计算能力,我们就不需要进行干预,完全让机器自己去找规律,让机器去找出海量数据中的建模规则,这完全是黑箱建模的思路。黑箱建模让我们发现了很多以前我们不知道的内容和规律。比如,以往认为反洗钱只存在40多种在线规则,而利用机器学习可以推翻这一结论,发现了1 000多条在线规则。针对保险用户,我们也可以通过异于常理的现象发现商机。比如,在9 000多万用户中有百分之零点几的用户的年收入4万多元,但买了7万多元的保险产品。那么相应的销售人员是用什么样的保险理财理念去推销产品的,有什么样的经验,这都是需要探索的。
当然,为了面向用户,所有大数据的处理要做到容易解读。但客观讲,阿里从来不解读,而是细分到碎片化以后直接做匹配、工具操作。阿里没有任何一个人会在你购物买了这个包以后,给你推荐另外一个包。分析决策的过程全部是用一个基础矩阵做的,是一个端到端的匹配操作,当分析结果出来以后,就直接执行了。所以在这个过程中,全量数据可以帮助发现业务规则。这其中就涉及很多模型。以前可能只是在北美金融界进行一些深度学习,都是比较学术型的。现在大数据很跨界,在大数据的学术范畴里,不仅有IT的人、统计的人,还有物理学、经济学、金融的人都在其中。学科交叉非常明显,它是一个基础的现代跨界科学。
在无假设条件下,通过机器学习能发现用户的一些特征。这些工具、方式、方法,帮助金融用户非常清楚地了解到以前未知的市场和未知的用户。就像互联网企业一样,通过这些了解,能够对这些用户进行有针对性的操作。
二、关注效率而不是精确度
大数据标志着人类在寻求量化和认识世界的道路上前进了一大步,过去不可计量、存储、分析和共享的很多东西都被数据化了,数据体量迅速增大,而我们对数据的关注点也开始从精确度转变为效率,那些海量却不那么精确的数据为我们理解世界打开了一扇新的大门。大数据能提高生产效率和销售效率,原因是大数据能够让我们知道市场的需要,人的消费需要,使企业的决策更科学。
在互联网大数据时代,企业产品迭代的速度也相应地在加快。竞争是企业的动力,而效率则是企业的生命,效率低与效率高是衡量企业成败的关键。一般来讲,投入与产出比体现了效率水平,追求高效率就是追求高价值。从手工、机器到自动机器、智能机器,效率正逐渐提高,尤其是大数据技术的推广使数据的智能分析更加便捷易行,甚至能够部分代替人脑的思维劳动。智能机器的核心是由大数据驱动的,因而大数据将成为企业未来竞争的核心资源。在快速变化的市场,快速预测、快速决策、快速创新、快速定制、快速生产、快速上市将成为企业行动的准则,也就是说速度就是价值,效率决定价值,而这一切都离不开大数据思维。
在大数据思维的指导下,企业将用效率的思维方式去思考问题、解决问题。大数据思维有点儿像混沌思维,确定与不确定交织在一起,过去那种一元思维结果,已被二元思维结果取代。过去寻求精确度,现在寻求高效率;过去寻求因果性,现在寻求相关性;过去寻找确定性,现在寻找概率性,对不精确的数据结果已能容忍。以前我们了解一件事情,大多要求是非常准确、非常精确的,不允许有任何混杂性的操作,要完全匹配。而在互联网大数据时代,只要大数据分析能够指出可能性,得出相应的结果,就能为企业快速决策、快速动作、抢占先机创造条件,提高了企业的运营、管理效率。
例如,当美国面对流感这一突发性疫情时,Google就利用Twitter及其他互联网上的信息,利用大数据技术通过搜索引擎对相关关键词进行主题跟踪,成功地得到疫情分布状况。它是通过描述主题来完成数据分析解读任务的,我国爆发H7N9禽流感时也运用了类似的技术。天云大数据公司采用语义空间主题投影方式,跟踪了数百个相互关联的信息点,建立了语义网络,在二度以上传播空间深度挖掘,从而发现了更多不为人知的事实。其中用到了上千个变量,有H7N9、流感、豆粕、鸡、发热、口罩、医院等,每一个变量都有权重,每一个变量都有依赖关系,这些权重和依赖关系从数亿片的论坛、微博、专业资讯网站里抽取出来。以此为依据建立模型以后,就可以跟踪整个主题变化。其中,将主题热度与豆产品价格做比较时,显示出明显的负相关性,这一信息可以转变为巨大的价值。对于期货公司而言,这些碎片化的公共信息一经分析、挖掘就可以指导其做出正确的市场操作,具有巨大经济价值。
那些以前我们认为碎片化、情绪化、难以量化的东西,现在都可以依靠大数据技术被合理量化,并运用大数据的思维实现它的价值。但是随着互联网时代的深入,社会发展的脚步越来越快,企业能够根据数据信息做出预测,先一步采取行动就能够抓住时代的机遇,因而对数据分析技术的高效性要求符合时代的趋势,是大数据思维下的必然选择。
三、关注相关性而不是因果关系
大数据时代数据海量性、多样性的特征以及对数据信息结果时效性的要求,都使得数据结果关注相关性而不是因果关系,也就是说只需要知道是什么,而不需要知道为什么。在这个不确定的时代里,等我们去找到准确的因果关系,再进行决策的时候,信息已经失去了时效性而丧失了价值。因此,社会只把关注点放在相关关系上,放弃对因果关系的渴求,这就推翻了自古以来的惯例,那么我们做出决定和理解现实的最基本方式也将受到挑战。而大数据思维最核心的特征之一,就是突破传统的因果思维并转向新颖的相关思维。
传统的因果思维是说我一定要找到一个原因,推出一个结果来。而大数据不必深究原因,也不要求必须采用科学的方法系统性地论证两个事件之间必然存在的某种因果关系。大数据唯一的需求在于,针对某个发生的迹象,按照一般的情况,数据统计结果中的高概率情形对应于该迹象会导致的结果。那么在这样的信息支持下,一旦该种迹象出现,人们就可以对其后果进行预测,并据此做出决策。基于此,人们的决策将可以免受人员、环境的干扰,单单由数据判断出相应的结果,提高了数据的客观性和可靠性,并且也符合效率思维。
大数据时代的来临为我们带来了全新的思维方式,在挖掘相关关系的过程中,能够发现看似毫不相关的事件中隐藏的关系,并在实践中充分展示出其优势,使得全世界的商界人士都在惊叹:一家超市从一个17岁女孩的购物清单中,发现了她已怀孕的事实,为她推送母婴产品的优惠信息;或者将啤酒与尿不湿放在一起销售,神奇地提高了二者的销售额。大数据透露出来的信息有时确实会起颠覆性作用,比如,腾讯一项针对社交网络的统计显示,爱看家庭剧的男性比女性的两倍还多;最关心金价的是中国大妈,但紧随其后的却是“90后”;在过去一年,支付宝中无线支付比例排名前十的竟然全部在青海、西藏和内蒙古地区。这些信息越是出乎意料,就越能为相关企业的未来业务调整带来启示。
当然,关注相关性,不是不要因果关系,因果关系还是基础,是科学理论的基石。只是在高速信息化的时代,为了得到即时信息,进行实时预测,通过快速的大数据分析技术寻找到相关性信息,预测用户行为,为企业快速决策提供支持,是一种更经济有效的处理方式。
寻找原因是一种现代社会的理论,大数据推翻了这个论断。当习惯用相关性的思维方式来思考问题、解决问题时,过去寻找原因的信念正逐渐被取代。当世界由探求因果关系变成挖掘相关关系时,我们怎样才能既不损坏建立在因果推理基础之上的社会繁荣和人类进步的基石,又取得实际的进步呢?这是值得思考的问题。
四、平等关系代替层级关系
平等性意味着各种数据的重要性是一致的,这与原来层级分明的金字塔式结构显然不同,突出了民主和平等的概念,形成了平起平坐的扁平式结构。在小数据时代更强调系统的层次结构,金字塔式的、不平等的等级结构更为实用,由此来强调系统要素之间的层级关系,突出结构中的重点。在等级结构中,从不同要素间的层级关系与相互联系,可以通过层层还原来不断揭示出要素之间的关系,并强调金字塔底的基础作用以及上下级的领导关系。而数据体量的增加使得这样的层级关系面临着挑战。在大数据的海量数据中,某些数据的重要性不再那么突出,所有的数据更多地是处于平等关系,因此不会特别突出某些数据的关键作用,每一个数据都具有价值。
相应地,数据的平等性特征也会反映到企业与社会关系中,越来越凸显出群众的价值。在大数据时代,企业组织架构由金字塔式趋向扁平化,这一改变能够提高企业的运作效率,使每个人都发挥出各自的价值。社会关系也趋向平等,借助互联网平台的开放性,每个人拥有平等的话语权,这将推动社会民主化的进程。
五、开放创造更多的价值
大数据的开放和包容能够创造出更多的价值,一切数据都对外开放,没有数据特权,从原来的单位利益、个人利益变为全民共享。从过去的实践经验中可以总结,封闭会导致混沌和腐败,开放则带来有序和生机。以往受到数据处理能力的限制,在对研究对象进行研究时,往往通过把对象与环境隔离开来,以简化模型、总结规律。因而,在社会生活中,我们也通过将社会划分为不同的部门或利益共同体加以分析。然而在实际中,不同利益共同体为了自身的利益各自为政,不愿意把信息对外公布和分享。当然,过去受到技术条件的限制,即使想跟公众分享也难以实现。
但是,在大数据时代,互联网、云技术等信息技术的普及带来了更方便快捷的共享手段,使得数据的普遍共享与开放成为可能。随处可见的计算机、智能手机、摄像头和许多其他信息收集设备及存储设备将大量数据存放于公共空间,为公众共享信息提供了基础。与此同时,数据的开放与共享也符合绝大多数人的利益与时代的趋势。大数据时代是一个开放的时代,数据的分享使得隐私的空间越来越小,分享与共享成为大众的共识,传统的小集团利益被打破,形成了一个透明、公开的社会。消费者与企业、企业与企业之间的数据共享有利于打破信息不对称的局面,提高市场的效率。而政府层面的数据信息整合与开放,能够提高公共部门的效率,进一步增加人民福祉,促进不同领域的合作共赢。更重要的是,开放与共享符合大众的期望,信息的公开与透明能够消除因封闭、封锁而导致的腐败,给社会经济带来勃勃生机。
六、关注事物的动态发展规律
世间万物都处在不断的发展变化之中,数据会随时间不断动态发展变化。大数据技术的发展使得人们可以实时对数据进行动态监控,对事物的整体认识与发展变化有了更深刻的了解。从原来的固化在某一时间点的静态数据到现在的随时随地采集的动态数据,在线地反映当下的动态数据和行为,随着时间的推移,系统也在适应。
在小数据时代,收集的数据都是特定时间点的静态数据,如传统的人口普查,必须在特定时间点开始人口普查,通过一段时间到某个时间点结束,然后用几年的时间来处理得到的静态数据。但是静态的人口数据具有很长的时滞性,不能实时反映出每时每刻人口的动态变化,因此人口的真实状况不能得到反映。在大数据时代,数据采集变得更加便利,在线采集数据的形式大大降低了数据采集的成本、缩短了数据采集的时间,并能够迅速处理和反映当下的状态,因此能够反映出数据实时的变动状态。
互联网的普及涌现出各种智能数据采集设备,能够随时随地采集到各种即时数据,并通过网络及时传输,存储在云端,并借助云计算技术进行即时的处理与分析,能够实现即时同步、不断更新。这些随时间流不断更新的数据正好反映了数据随时间的动态演化过程,并构成了一幅动态演化全景图,反映了数据的生长性。此外,系统可以根据即时的动态信息来随时调整系统的行为,从而体现出系统的适应性。
七、大数据思维下的其他原理
大数据思维下的其他原理包括信息找人原理、机器懂人原理、电子商务智能原理和定制产品原理。
(一)信息找人原理
互联网和大数据的发展促使了一个从人找信息到信息找人的思维转变。过去也曾有信息找人的例子,最初的广播模式就是信息找人,我们听收音机、看电视,信息就被动地传送到我们面前。但是这样的模式有一个缺陷,就是不知道信息的受众是谁,后来互联网反其道而行之,提供搜索引擎技术,让人们能够自主找到所需要的信息,所以说搜索引擎是一个很关键的技术。而如今,后搜索引擎时代已经正式来到,推荐引擎的诞生将使得使用搜索引擎的频率大大降低,使用时长大大缩短,信息找人越来越成为一个趋势。
大数据还改变了信息优势。按照循证医学,现在治病的第一件事情不是去研究病理学,而是拿过去的数据去研究,相同情况下是如何治疗的。这导致专家和普通人之间的信息差异没有了。原来我相信医生,因为医生知道得多,但现在我可以到谷歌上查一下,知道自己得了什么病。谷歌有一个机器翻译的团队,最开始的时候翻译之后的内容根本看不懂,但是现在60%的内容都能读得懂。
从人找信息到信息找人是交互时代的一个转变,也是智能时代的要求。智能机器已不是冷冰冰的机器,而是具有一定智能的机器。“信息找人”这四个字,预示着大数据时代可以让信息找人,原因是企业懂用户,机器懂用户,你需要什么信息,企业和机器提前知道,而且会主动提供你需要的信息。
(二)机器懂人原理
在大数据的思维下,未来的趋势是机器更懂人,而不是让人更懂机器,就是说使用者能够在不懂机器的情况下,仍然可以使用机器。在自然环境中都是人主动适应环境,但是在数字化环境中已经发生了改变,我们所在的生活世界越来越趋向于它来适应我们,更懂我们。而“大数据”技术就能够帮助我们实现这样的转变。
例如,在亚马逊网站上买书,就会提供一个司空见惯的推荐,买了这本书的人还买了什么书,后来发现相关推荐的书比我想买的书还要好,时间久了之后就会对它产生一种信任。
让机器懂人,是让机器具有学习的功能,人工智能已转变为研究机器学习。大数据分析要求机器更智能,具有分析能力,机器即时学习变得更重要。机器学习是指计算机利用经验改善自身性能的行为。机器学习主要研究如何使用计算机模拟和实现人类获取知识(学习)过程、创新、重构已有的知识,从而提升自身处理问题的能力,机器学习的最终目的是从数据中获取知识。大数据技术的一个核心目标是要从体量巨大、结构繁多的数据中挖掘出隐蔽在其背后的规律,从而使数据发挥最大化的价值。大数据机器分析中,半监督学习、集成学习、概率模型等技术尤为重要。
让机器懂人,这是人工智能的成功,同时,也是人的大数据思维转变。人机关系已发生很大变化,由人机分离,转化为人机沟通、人机互补、机器懂人,现在年青人已离不开智能手机是一个很好的例证。在互联网大数据时代,有问题—问机器—问百度,成为生活的一部分。机器利用大数据库可搜索到相关数据,从而使机器懂人。是人让机器更懂人,如果机器更懂人,那么机器的价值更高。
(三)电子商务智能原理
大数据改变了电子商务模式,让电子商务更智能。传统企业进入互联网在掌握了“大数据”技术应用途径之后,就会发现有一种豁然开朗的感觉。大数据时代不是说我们这个时代除了大数据什么都没有,即使是在互联网和IT领域数据也不是一切,而是数据已经成为我们这个时代的一个明显的特征,从而导致我们对以前的生存状态,以及我们个人的生活状态的一个差异化的一种表达。
人脑思维与机器思维有很大差别,但机器思维在速度上是取胜的,而且智能软件在很多领域已能代替人脑思维的操作工作。例如,美国一家媒体公司已用计算机智能软件写稿,可用率已达70%。云计算机已能处理兆字节的大数据量,人们需要的所有信息都可以得到显现,而且每个人的互联网行为都可记录,这些记录的大数据经过云计算处理能产生深层次信息,经过大数据软件挖掘,企业需要的商务信息都能实时提供,为企业决策和营销、定制产品等提供大数据支持,从而实现更智能化的电子商务。
(四)定制产品原理
大数据时代的产品思维由企业生产产品转变为由客户定制产品,成本低又兼具个性化。比如,消费者希望他购买的车有红色、蓝色,厂商有能力满足要求,但价格又不至于像手工制作那样昂贵。因此,在厂家可以负担得起大规模定制的高成本的前提下,要真正做到个性化产品和服务,就必须对客户需求有很好的了解,这背后就需要依靠大数据技术。
我们现在很多的行为都是比较粗放的,航空公司会给我们里程卡,根据飞行千米数来累计里程,但其实不同顾客所飞行的不同里程对航空公司的利润贡献是不一样的。在过去,企业无法对这些行为加以区分,但是在互联网大数据的时代,商家能够很便利地实现针对每一个顾客进行精准的价格歧视。
同时,企业在互联网时代也找到了定制产品、订单生产、用户销售的新路子。用户在家购买商品已成为趋势,快递的方便快捷让用户体验到实时购物的快感,进而成为网购迷,个人消费不是减少了,反而是增加了。而要让你的商品对用户具备持续的吸引力,就必须深入了解用户需要,而定制产品就成为用户新的需求点,也就成为企业发展的新方向。