这个笑话,让人思考几个问题,什么是大数据(Big Data)?大数据是怎么得到并算出这一切的?大数据会在多大程度进入和改变我们的生活方式?
2016年年初,一场人机大战吸引了世界的眼球。世界围棋冠军、韩国九段高手李世石与一台名叫“阿尔法狗”的计算机进行了五番棋的“人狗大战”。在这场大战开始前,围棋界的超一流选手大多看好李世石,认为机器斗不过人,但事实却让这些大师汗颜,“阿尔法狗”以4:1的悬殊比分轻松战胜了李世石。
当人类为此惊叹、惊呼的时候,“阿尔法狗”静静地待在一边,甚至连庆祝都不会。
“阿尔法狗”运用的就是大数据。
人类的智力游戏中,围棋的难度是最大的,因为棋手起手时有19×19=361种落子选择,所以它的变化几乎每一局都不相同,一局150回合的围棋可能出现的局面多达10170种。因此,挑战围棋被称作人工智能的“阿波罗计划”。
但“阿尔法狗”的设计者们是一些甚至连初段选手水平也达不到的科学家,对于他们来说,只需要懂得围棋的基本规则即可。他们利用蒙特卡洛树搜索算法和神经网络算法,将棋类专家的比赛记录输入计算机,并让计算机自己与自己进行比赛,在这个过程中不断学习训练。在与李世石对阵之前,谷歌首先用人类对弈的近3000万种走法来训练“阿尔法狗”的神经网络,让它学会预测人类专业棋手怎么落子。通过让“阿尔法狗”自己跟自己下棋,从而又产生规模庞大的全新的棋谱。谷歌工程师说,“阿尔法狗”每天可以尝试百万量级的走法。在下棋的过程中,它不是考虑自己应该怎么下,而是想人类的高手会怎么下。也就是说,它会根据输入棋盘当前的一个状态,预测人类下一步棋会下在哪儿,提出最符合人类思维的几种可行的下法。
这样的计算能力和数据量是人类在有限的时间内无法完成的,所以,李世石只能输了。
人类对资料与数据的占有与使用,是文明程度发展的标志。从结绳记事到仓颉造字,从竹简刻字到活版印刷,随着人们对资料数据越来越多地占有和利用,人类文明也一步步进入高级阶段。
加拿大经济历史学家哈罗德·英尼斯甚至以媒介为标准,将人类文明分为埃及文明(莎草纸和圣书文字)、希腊罗马文明(拼音文字)、中世纪时期(羊皮纸和抄本)、中国纸笔时期、印刷术初期、启蒙时期(报纸的诞生)、机器印刷时期(印刷机、铸字机、铅版、机制纸)、电影时期、广播时期九个阶段。
这种划定人类文明的思维虽然让人大跌眼镜,但也不无道理,我们不能否认,正是因为新媒介的产生,各种资料和数据比上一种文明成百倍干倍地增加,才使新的文明获得更多的营养得以传承和发展。
哈罗德·英尼斯被引用最多的一句话是这么说的:“一种媒介经过长期使用之后,可能会在一定程度上决定它传播的知识的特征。也许可以说,它无孔不入地影响创造出来的文明,最终难以保存其活力和灵活性。也许还可以说,一种新媒介的长处,将导致一种新文明的产生。”
似乎为了证明哈罗德·英尼斯预言的准确性,人类发明了电脑和互联网后,这种新媒介果然导致了新文明的产生。这就是互联网文明,大数据时代。
大数据是一种说不清道不明的东西,许多人提起它都是云里雾里,就是专业人员解释起来也得费半天劲。
比如说,啤酒与纸尿布有何关系?难道爱喝啤酒的人容易尿裤子?
写魔幻现实主义小说的马尔克斯与写推理小说的东野圭吾是好友吗?他们的书为什么被亚马逊网排列在一起,说明是“经常一起购买的商品”?
原来,被老婆“赶”进超市去给孩子买纸尿布的丈夫通常会顺手买罐啤酒犒劳自己,沃尔玛根据购买数据把这两种本不相干的商品放在一起,提高了销售收入。
沃尔玛每小时可以处理100万笔购买资料,从中找出隐含的资讯与商机,一些小小的商品摆放改动,也是分析巨量数据后的心得。沃尔玛的首席信息官罗林·福特说:“每天早上一醒来,我就要问自己:怎样才能让数据流动得更好,管理得更好,分析得更好?”
哥伦比亚人马尔克斯与日本人东野圭吾之间唯一的关联就是他们都是作家,但亚马逊网上书店却把他们放在一起,原因是这两本书经常被同一个顾客同时买走。
最早的时候,亚马逊是遵循传统方式,让书评家写评论推销图书的,但是,他们很快就发现,计算机比人聪明,计算机虽然看不懂小说,但是却准确地知道每个人都买了什么书,哪些书经常被一起买走。这种内在的关联数据被利用起来,变成“经常一起购买的商品”,于是销量大增,成为年销售450亿美元的大企业。
P7-13