其他

财新荐书:大数据能把我们怎么样

2016-12-09 财新荐书 财新文化



大数据能把我们怎么样


人位势越高,说话就越要小心。马云在最近一场论坛上说,基于大数据的发展,未来“计划经济将会越来越大”。这引起了一些争议,自觉懂大数据的指责马云误解了“大数据”,自觉懂经济的指责马云误解了“计划经济”,而自觉懂政治的指责大家都误解了马云。


先正名。“data”这个词在英文里有“作为论据的事实”这层含义,所以中文词里有个对应的“据”字。“据”就是可以用来论证什么东西的事实,字据、票据啥的。这个词的翻译其实是非常精到的。


但在口语里,这层意思薄弱甚至消失了。年底了,老板问你要“销售数据”,但他经常想要看的只是销售数字而已,说起来,他更像是要number而不是data。事实上,当老板想要销售数据的时候,估计你至少得做个PPT,讲一下各个数字之间的关系和背后的原因。你总要发现点什么,做些解释,否则难称其为数据。这种解释,又总是要归到我们的日常经验,才算有效。


这是数据的去脉,来龙也值得想一想。数据跟事实一样,总得先有一些理解(对于数据,叫挖掘算法),才能提炼出来。你看到一个事实,说男人进投票站投了萨达姆一票,这已经包含了许多背景知识,至少你已经了解了什么叫投票,否则你看到的事实应该只是一个男人进来在一张纸片上勾勾画画,然后放进了一个大木箱。如果你了解更多,你掌握的事实可能是美国出兵在即,萨达姆逼百姓搞了个假选举。听说欧洲核子对撞机实验一次会产生天量数据,但科学家们基本看不出太多头绪,因为还不知道怎么去提问,他们记下的,很多就类似于一个男人在大木箱前勾勾画画这样的内容。这些,称之为信息记录或原始数据可能更合适。




《智能时代:大数据与智能革命重新定义未来》

吴军 著

中信出版集团

2016年8月


吴军博士曾任职google研究院,也担任过腾讯的副总裁,他的《浪潮之巅》已经是IT史里的经典名著。


在本书中,他有一个重要观点:大数据的重要性不应停留在统计、改进产品和销售,或者提供决策支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。


不知道马云说“大数据会使计划经济越来越大”是指,利用掌握越来越多的经济数据,让一个决策中枢作出正确且比市场更有效的判断;还是让智能生长在大数据上,然后直接把决策权也交给它,当然,这两者之间可能是联系的。前者的前景当然清晰可预见,但天花板也很明显,一面是掌握数据和处理数据的成本会越来越高,直到经济上不划算;另一面是混沌和复杂性,让你永远无法完全掌控局面。不过“越来越大”这种说法不算错。如果计划经济指的是依赖机器的智能调度,整个经济体系是按某个设定目标自动运行的,这还叫不叫经济活动也是个问题,莫说“计划经济”了。


大数据的开山始祖舍恩伯格在《大数据时代》中,曾指出大数据时代需要三种思维变革:变随机样本为全体数据;变精确性为混杂性;变因果关系为相关关系。第一条最好理解,因为调查成本降低,计算能力飞跃嘛,以前做不了的事现在好多能做了。后两个其实相关联,吴军在书中也特别强调,智能时代会是强相关关系替代工业时代的因果关系,机器智能是不需要也领会不了人类的因果概念的,就像书里说的,“AlphaGo不知道自己在下棋,只有发明他的人知道”,它的核心计算逻辑只有概率。但是仅凭输入一个目标,机器智能可以做好吗?也许让它往东100米可以,全民小康呢,幸福呢?




《上帝掷骰子吗?混沌之新数学》

【英】伊恩·斯图尔特  著  潘涛 译

上海交通大学出版社

2016年5月


下棋的规则很明确,无论你如何不甘,李世石总是输了。但是别的目标可就因人而异了,我就想要饱食终日,无所用心,得过且过,你该怎么调整我?


科幻小说《三体》以三体问题为背景设定,三个有相互作用的质点尚不可解,何况几十亿各怀鬼胎,相互惦记着的人呢?反正把大家都算出来,再给一个最优解是不可能的。


大数据这个词后面相伴相生的,其实是大计算能力。然而,总有一些事情,理论上就是不可计算的,这还没说到男女那些事儿,说的还只是自然领域。


《上帝掷骰子吗?》是混沌理论的奠基之作,已被翻译成13种语言,此番是时隔20年之后中文再版。做纯理论学科就有这个好处,隔了20年也不用担心落伍的问题。


混沌学不是日常所说的混乱无序,也不是古文献中指称宇宙未辟、上下未形时的原始物质,它是在严密、精确的数学领域里出现的一个新的数学客体,混沌是“完全由定律支配的无定律性态”。秩序既然可以通过自组织从无到有,再从有到无,一点也不奇怪。

 


《心智探奇:人类心智的起源与进化》

【美】史蒂芬•平克  著  郝耀伟 译

浙江人民出版社

2016年3月


在庞大的数据和超强的计算能力面前,人类惟一能守住的也许就剩心智了。就大数据放弃了因果关系转向相关关系而言,人类也许暂时不用担心失守的事。


人是依靠意义来理解世界的,而相关关系放弃了这一点。太阳当头照,石头就发热,对于相关关系,就到此为止了。对于人类,理解大概是要到辐射加热,光波加剧分子震荡,石头升温才告一段落,而周边又有“物体的热乃是由于他的分子运动所致”等一大片周边知识。在相关关系的世界里,所有的逻辑联系都是并列的,只有强度的区别,这么累的思考和存储方式,显然只有电脑这种不差硬件的家伙才能完成。


再进一步,我们利用大数据的方式很类似于侦探破案,总是先有一个小疑点,然后就这个疑点构筑一套合理猜测,再按这个猜想的行为方式,在各个节点上去寻找证据,待证据链搜集齐备,案即告破。如果没有那整套猜测,把作案时间、动机、凶器、手法等关键元素都嵌进去,根本不知道该从哪里找证据。


从发现数据中的异样,开始猜测形成逻辑,验证,形成结论,我们认为是大数据帮我们找出了一个问题。但完成合乎逻辑的猜测和设计验证过程这个步骤,仍然是由人完成的,无法想象一个只由相关关系哺育出来的“智能”如何完成这样的跳跃。当然,我的无法想象很有可能只是我的计算机知识太差。


平克是当代了不起的思想家,在语言学、认知神经科学、人工智能都很有建树。他认为我们的心智有四项特殊能力:视觉感知、推理、情感和社会关系(其实还有语言,这在他另一本书《语言本能》中有专门论述),他试图用自然选择和心智计算来解释这些能力的来源,在书里他完全是用反向工程的方式解剖人的心智,给人的心智一种完全自然主义的解释,光这种卓越的努力本身,就值得认真阅读。


虽然你我未必会赞同他的每一个步骤,但心智或人工智能这样尚未有正解又切身的话题,在与大师对话的过程里自己思索、反驳,正是乐趣所在。

 



《大数据和我们:如何更好地从后隐私经济中获益?》

【美】安德雷斯•韦思岸 著  胡小锐 李凯平 译

中信出版集团

2016年11月


安德雷斯·韦思岸是亚马逊的前首席科学家,此书是惟一专注于讨论大数据与隐私的著作。作者的立场倾向于开放。


隐私权本身是有历史性无疑,人类在村里生活的时候,基本不想这个事。隐私概念是聚居到了城市之后逐渐形成的,既是陌生人,住得还近,没点隐私怎么行?这主要还是生活里的。纸媒诞生后,小报为了吸粉,八卦和假新闻横行,于是名字、肖像、个人信息都得保护起来了。


但作者认为,人在互联网里生活,享受其便利,有些隐私就不得不放弃。你提交收入证明给银行,为了换取贷款;你允许电商网站读取你交易记录,以便为你授信,这是自愿交换。当然,你可以也应当要求法律严格限制对方对信息的使用。


事实上,如果数据的维度足够丰富,这个完全可以构成个人的电子档案,有几项标准的打分,在社会中办什么事都用它好了。在大城市的陌生人社会,这也将是一个快速建立信任的机制,个人就像让渡一部分政治权利给政府一样,让渡隐私给这个信任评价体系,会为社会降低信任成本,也就会大大降低交易成本。


可行吗?不知道,听上去还挺好,不过让渡这事吧,你得先有不是。要是数据和隐私都归那个计划之手,也就没让渡这回事了。


刊于《财新周刊》2016年第47期。


特别声明 财新文化由财新传媒出品。财新文化所刊载内容之知识产权为财新传媒及/或相关权利人专属所有或持有。欢迎在朋友圈分享,未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。

分享 点击右上角按钮,选择 发送给朋友 分享到朋友圈

订阅点击右上角按钮,长按下方二维码识别添加或查看公众账号 或搜索 财新文化。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存