
■ 陈禹 中国人民大学信息学院
大数据已经成为今天的热门话题,从政府管理部门、商界到学术界,大家都在谈论大数据。显然,这不是偶然的现象,它是社会和经济发展的必然。人们都说,大数据给我们带来了发展和创业的众多机遇,然而,我们在这里想要指出的是。它更带来了许多需要我们认真思考的问题,特别是对于经济学。
1、数据从来就是科学与实业的基础
首先我们要说明一点,所谓大数据并不是一个新的议题。从有人类社会以来,无论是科学技术的进步还是各种实业的发展,都离不开人们对于数据的掌握和利用的不断进步。人类对数据掌控的情况和发展水平,包括它的数量和质量,一直都是社会和经济进步的最重要和最基本的标识之一。
回顾人类社会的历史,无数事实可以证明这点。这里只举几个众所周知的例子。
第谷积累的天文观测数据,成为牛顿和开普勒创建近代物理科学的基石。伽利略通过望远镜,得到的关于月球和太阳系的图像,彻底粉碎了传统的宇宙观念,宣示了科学的新世纪的到来。地理大发现得到的地理数据,不但无可辩驳地证明了地球是圆的,更为世界经济的发展开辟了新的天地,使世界历史进入了崭新的篇章。银行和保险业对于数据的依赖根是人们熟知的基本事实。就拿我们今天的计算机和信息技术来说,大家都很清楚人口普查在这计算机诞生的历史中所发挥的重要作用。
70多年前,著名学者冯·诺伊曼在谈到经济科学与物理科学的比较的时候。曾经反复强调了数据的重要性。他曾说:
“我们对于经济学中有关事实的认识太少了,根本无法与完成物理学的数学化时人们所掌握的物理学知识相比。事实上,17世纪的物理学,尤其是力学,之所以会出现决定性的转折,是由于此前天文学的发展。而天文学的这种发展,是以几千年系统、科学的天文观察为基础的。到了才华超群绝伦的天文观测者第谷时,这种天文观测达到了顶峰。在经济科学中,没有任何类似事件发生。在物理学中,设想没有第谷而出现开普勒和牛顿是荒唐的——我们没有理由希望经济学的发展会比物理学的发展更容易。”(引自《数学在科学和社会中的作用》,冯·诺伊曼著,大连理工大学出版社,2009。1,P58)
当然,所谓大数据是相对的。第谷的观测数据,在今天看来实在说不上是大数据,然而它发挥的作用却是历史性的。在冯·诺伊曼说上面这段话的1944年,现代意义下的电子计算机正在襁褓之中,显然,他所寄予希望的“大数据”也只不过是相对于当时的视野而言的。七十多年来,计算机的发展可以用所处理的数据的量级来作为里程碑,七十年代,我们用K来描述磁芯、磁带、磁鼓,八十年代我们用M来度量磁盘和内存,到了今天,随身携带的U盘要用G来度量,企业级别的数据存储则是以T,P来计算。再过十年,我们还不知道要用什么样的单位和数量级别来进行数据量的计算。
那么,为什么大数据近来会成为热门呢?简单地说,这一波浪潮大概是由以下几个因素促成的。首先,技术的进步,包括存储技术的进步(海量存储)、网络技术的进步(互联网和云计算)、数据采集技术的进步(各种传感器和物联网)、数据加工技术的进步(数据挖掘)等等。这些为大数据的采集和处理提供了实施的可能性。另一方面,社会需求的增长,最典型的就是业界津津乐道的电子商务和精准营销。越来越便捷、越来越廉价的技术保障,与越来越广泛的社会需求结合在一起,就促成了信息化进程的一个新的高潮——今天的大数据热。
总之,我们必须明确的是:大数据并不是突然提出来的一个新议题,由于技术和经济的发展,今天这个议题的意义和价值不断提高,今天的大数据热潮并不是一个偶然的现象,它对于学界和商界既是一个难得的机遇,也是一次严肃的挑战。
2、大数据时代呼唤理念的更新
大数据是客观存在。能否抓住这个机遇,推动科学或实业的进展,则取决于人的主动行为。数据的利用是人的行为,而人的行为是由人的理念所指导的。大数据的开发利用要得到成功,最基本就是对于人类社会和经济的正确的认识,即人们的理念。这在科学研究和经济生活中都是一个规律。
现在有一种意见认为:在大数据时代,逻辑和因果关系已经不重要了,只要有了大数据,统计一下、计算一下,就什么问题都解决了,甚至什么理论都不再需要了,理论的更新和发展已经不再重要了。必须指出,这是对于大数据的极大误解!恰恰相反,大数据给我们带来的最重要的启示,正是对于基本的理念的反思和更新。从第谷到法拉第,数据视野的扩大带来的冲击,首先是人们对于世界的观念的变更。每当我们打开一扇新的窗子,看到新的境界的时候,我们都会不由自主地惊叹:“原来世界是如此的丰富多彩,比我们原来的理解复杂多了!”科学就是这样,从地心说走向日心说和布鲁诺的无限宇宙,从牛顿力学的一统天下走向包括相对论和量子力学在内的丰富多彩的物理世界。
从基本理念和方法论的角度来看,我们首先必须强调两点:
第一,质的差别先于量的差别,任何量的度量都是在一定的质的规定制约下的,都是相对于一定的场景和层次而言的。
第二,世界的复杂性首先是质的复杂性。前面我们曾经引用了冯诺依曼强调数据重要性的经典论述。然而也正是他,在同一篇文章中讲了如下的一段话:“用精确的方法处理根本就不明晰的概念和问题是毫无意义的。因此,要想用精确的方法处理经济问题,第一步是通过更细致的描述工作澄清人们对事物的认识。”(《数学在科学和社会中的作用》,同上书,P5)大家可以看到,在今天的大数据热潮中,这种“用精确的方法处理根本就不明晰的概念和问题”的现象实在是屡见不鲜的。大数据时代的到来,既为我们提供了难得的机遇,也向我们提出了许多需要思考的新的问题。在这样的时期,正确把握科学的理念和方法,保持科学的态度是非常重要的。
所谓科学的理念究竟指的是什么呢?用比较通俗的语言来讲,就是要充分地认识到世界的复杂性,防止僵化和绝对化,脚踏实地,从实际出发,实事求是,循序渐进。关于复杂性的理念,从上世纪末以来,已经引起了越来越多科学家的关注。物理学诺贝尔奖获得者安得逊曾说过“多就是不同”(More is different)。赫伯特·西蒙则一再强调对于不确定性的重视和关注,并由此开创了关于认为事物的科学——设计科学。不久前去世的著名学者约翰·霍兰在2013年写的总结性著作《复杂性简述》(”Complexity, A Very Shout Introduction”, Oxford University Press, 2014)中,列举了涌现、自组织、蝴蝶效应,“肥尾行为”(fat-tailed behaviou)适应性的相互作用等关注点,为我们开拓思路、更新理念指出了方向。(见该书p5—6)
总之,我们千万不要误以为,“有了大数据,一切事情就简单了!”恰恰相反,大数据为我们提供了认识复杂性的新的机遇和手段。只有这样认识大数据热,才能防止陷入“数据越来越多,知识越来越少”的困境。
3、大数据时代对于经济学的挑战
经济系统是典型的复杂系统,也是和国计民生关系最为紧密的领域。大数据在经济领域(包括理论研究和实际运作)得到特别的重视和关注是必然的。也正是在这里,我们更加需要强调更新理念的重要性和迫切性。
在这一节里,我们用三个基本的理论议题作为例子,对于大数据给经济学的理论创新带来的挑战和机遇,进行一点讨论。这三个问题是:分工和合作的问题,价值的概念和度量的问题,供给和需求的问题。这都是经济学的最根本的议题。我们不妨简要地考察一下:传统的经济学对此说了些什么?和今天大数据所提供的现实对得上吗?差在哪里?由此引出我们的经济学的理念需要如何反思、如何更新。
先看分工和合作的问题。“交换导致分工”,亚当﹒斯密的这句名言奠定了经济学的基础,制造缝衣针的工厂成为了分工的经典案例。一直到今天,人们讨论的、课堂上讲授的,还都是这种沿着工序(或对于企业之间来说,则是供应链)分工方式。然而,近年来平台型的企业异军突起,展示了一种新型的分工关系。如果说缝衣针工厂的分工是水平的、横向的,那么,平台型企业的分工则是纵向的。从本质上说,前者是同一个层次上的不同个体之间的分工合作,那么,后者则是宽约层次的、个体与上一层次的整体之间的分工合作。如果前者尚可以用交换来描述和看待的话,那么后者则很难用“一手交钱一手交货”的交换关系来概括,这里面更多的是环境的构建和服务的提供,在这里凸显出来的是个体利益和整体利益的协调、近期利益和长远利益的协调。这就使我们发现了亚当·斯密没有来得及强调的、发挥着关键作用的另一件事情——合作的重要性。而这就提醒我们:需要重新审视“交换导致分工”这个命题。而这一启发为我们构建信息时代的新的分工合作的模式,提供了钥匙。而对于这种新型的分工合作关系的认识,正是现实的、大量平台型企业给我们提供的。经济学的理念正是需要这样的思考和更新。
再看价值问题。经济学领域关于价值的争论已经持续了两百多年,劳动价值论和边际价值论各执一端,至今没有结束。然而,近年来关于实体经济和虚拟经济的讨论,给我们以许多新的启示。现代系统科学和复杂性研究的一个基本理念,就是整体大于它的各部分之和,用通俗的话讲就是一加一大于二。从这样的视角来看,正是人们通过分工合作,创造出了新的质和新的量。既然如此,怎么能分得清哪一部分是劳动创造的,那一部分是资本创造的呢?越来越细的分工、越来越广泛的合作(直到国际分工和全球经济一体化)才是近几百年来人类财富急剧膨胀的根本原因之一。(另一个原因是技术的进步,这里不再展开。)同时,随着分工合作的细化,越来越多的家务劳动走向社会化,进入了流通领域,被计算进了GDP,这就使得经济系统的效率评价更加复杂。在这种情况下,经济系统的不稳定,贫富差距的扩大,就业问题等等就都被GDP和增长率掩盖起来了,并由此产生了无数的矛盾和争论。
其实,只要我们客观地对待现实的海量数据,就不难看到问题出在哪里。如此复杂的社会经济系统,怎么可能用一个统一的指标加以度量呢?许多统计加工的隐含前提就是同质化。现实世界中的质的差别比比皆是,统计方法的结果总是在一定范围内才有意义的。对于所谓实体经济和虚拟经济之争,也完全可以在承认不同层次的经济需要不同的度量方法的基础上得到妥善的解决。古典经济学在分析经济现象时进行必要的抽象和简化,无疑是必要的。问题在于,面对着二十一世纪的信息经济,面对着新事物层出不穷的的新现象、新问题,这样的抽象和简化是否需要修正。当然,这种修正不是凭空想象,而是给予大量实际数据和新鲜案例的深入思考。
还有一个供给和需求的问题。传统的经济学立足于资源稀缺的嘉定,立足于边际效益的递减,并从中归纳出局部均衡和一般均衡,成为经济学的核心内容。然而,只要仔细分析一下这些理念,就不难看出,所有这些理念都是基于物质产品的分析的,这在亚当·斯密的时代,无疑是合理的、有效的。然而,今天的情况还是这样吗?在人们的消费构成中,与信息相关的成分、与精神需求相关的内容越来越多。
我们不禁要问,信息资源今天是短缺的吗?艺术欣赏的需求是收益递减的吗?说得再广一点,文化产业的效益能够简单地用收益来衡量吗?一部电影,票房高就一定是好电影吗?推而广之,奢侈品满足的是什么样的需求?炫富者、追星族、球迷、娱乐八卦、黄色网站之类的需求遵循的是什么样的规律?市场经济和精神文明建设的关系究竟应当如何协调?合市场规律吗?所有这些现象和案例,都需要我们超越简单的供需关系来考虑。对于所有这些现实情况的深入研究,一定会给我们的经济学的进步带来新的动力。
类似的议题还有许多,例如:信息在经济系统中的作用,广告的作用和定价,教育、医疗、养老和经济系统的关系,创新在经济中的作用,经济系统的可持续发展等等。今天的大数据提供的海量数据和丰富案例,为我们实现冯﹒诺依曼憧憬的经济学的繁荣,创造了可以期望的的前景。这就是大数据的真正意义所在!
4、开发和利用大数据的实施——从何入手
从上面的讨论可以看到,大数据的开发和利用是一件长远的事情。它并不是今天刚刚提出来的的,也不是短期可以完成的。实业界的各位朋友经常问到,开发和利用大数据从何入手?
我们的建议是,除了需要明确上述的一些基本理念之外,从实际出发是最需要强调的。用一句老话讲,就是“从实际出发”。在这方面,仍然是冯·诺伊曼的论述值得认真参考。他在上面提到的《数学在科学和社会中的作用》一书中,提供了比较完整的观点。为了能够完整地体会他的意思,我们这里不妨多引用一点。
“考虑到与物理学相比,经济学作为一门科学更加困难,更少被人理解,而且无疑处于更早期的发展阶段,所以,人们显然也就不能对其发展形势提出更高的要求。”(《数学在科学和社会中的作用》P55)“在经济学的某些分支里,最有成效的工作也许是耐心的解释描述;事实上,在目前和今后一段时间内,这种工作将占经济学研究的绝大部分。”(《数学在科学和社会中的作用》P55)“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”(《数学在科学和社会中的作用》P62)
“我们相信,尽可能多地了解个体行为以及交换的最简单的形式是必要的……经济学家们常常致力于一些更大的、更‘热’的问题,并且把妨碍他们做出关于这些问题的结论的任何东西都扫除一清。比较先进的科学如物理学的经验告诉我们,这种性急的做法只会延误对包括那些‘点’问题的研究在内的科学研究的进展。我们没有任何理由假定在科学研究中存在捷径。”(《数学在科学和社会中的作用》P63)
我们感到,这些论述对于我们清醒地认识当前的情况是很有好处的。经济科学的巨大的复杂性,要求我们脚踏实地地进行认真的、科学的考察和研究,进行他所说的“耐心的解释描述”和“颇为朴实的问题”,而不是急功近利地炒作或追赶时髦。
关于经济系统的复杂性,我们在6月出版的《复杂性研究视角中的经济系统》(商务印书馆,陈禹、方美琪著,2015.6,北京)中已经有详细的说明,这里不再重复。
只是希望各位朋友对于确定性和不确定性的悖论,定量和定性的悖论,人文、社会和心理的因素给与更多地关注,循序渐进,从本行业的具体问题入手,从长计议,不要急于求成、急功近利。
总之,现代信息技术的进步对于科学和实业来说,都正在不断地提供新的机遇,包括数据量的持续增加和数据加工手段的不断进步。我们对于实业界的各位朋友的建议就是:明确理念,从长计议,立足行业,讲求实效,循序渐进。
(注:本文是根据作者在11月27日举行的“大数据——学界和商界对话研讨会”上的发言,加以补充完成的,特此说明。该研讨会是中国信息经济学会和中国人民大学信息学院联合召开的。)
(完)
全球最大的职业社交网站(LinkedIn)在其主办的2015年Talent Connect大会上,公佈了美国100个受欢迎雇主...
就在一些人对祖国医药的瑰宝———中医药的疗效和前途命运产生怀疑、发生争论的时候,天津天士力集团抓住国...