别人的建议可以让你生活得更轻松。想知道该租哪部影片来看吗?常用的方法是问问朋友的看法,或者看看影评们对它的评价如何。
当今的人们往往上网去根据大家的行为来寻找参考意见。有些“偏好引擎”列出了最受欢迎的东西的简单清单。《纽约时报》列出了“转载次数最多的文章”。iTunes列出了下载次数最多的歌曲。Del.icio.us列出了最受欢迎的互联网书签。这些简单的过滤常常帮助网友们特别关注这些最受欢迎的事物。
有些推荐软件更进一步,它们试图让你知道跟你相似的人都喜欢什么。亚马逊会告诉你买了《达芬奇密码》(The Da Vinci Code)的人也买了《圣血,圣杯》(Holly Blood,Holly Grail)。DVD租赁公司Netflix会根据你以前推荐过的电影来给你推荐影片。这是真正的“合作筛选”,因为你对影片的评级可以使Netflix更好地给别人推荐,而别人的评价也可以使:Netflix更好地为你推荐。互联网是实现这一服务的完美工具,因为零售商在网络上用非常低廉的成本就可以追踪消费者的行为,自动加总、分析他们的信息,并把这些信息显示给后继消费者。
这些程序当然也不可能完美无缺。如果有人想在沃尔玛找马丁·路德·金的《我有一个梦想》(I Have a Dream),却被告知他们也许也该欣赏一下DVD影片《决战猩球》(Planet of the Apes),那么沃尔玛就必须为此道歉。亚马逊也类似地得罪过消费者,他们搜索有关“堕胎”的书,而亚马逊却问“你想搜的是领养吗”?(译者注:在英文中,“堕胎”和“领养”形近,分别是abortion和adoption。)“领养”问题之所以会自动出现,是因为以前搜索过“堕胎”的很多顾客也搜索了“领养”。
尽管如此,通过网络进行的“合作筛选”已经使消费者和零售商都受到了很大的裨益。在Netflix,租出去的影片中大概有三分之二得到网上推荐。而且(在Netflix的五星评级体系中)被推荐过的电影的评级都比在这一推荐系统之外租到的影片提高了半个星。
最常转载的文章和畅销书等评比使消费变得集中,而更个性化的推荐则可以使消费变得分散。Netflix可以为不同人推荐不同的电影。因此,Netflix的50000类不同的影片中至少每个月都有90%以上可以被租出。“合作筛选”可以使卖方接触到克里斯·安德森(Chris Anderson)所说的偏好分布的“长尾”。Netflix的推荐可以使顾客定位更精准,而这在过去很难实现。
音乐方面也存在类似的现象。在Pandora.com,用户只需输入他们喜爱的歌曲名或者歌手名,几乎在同时,这个网站就开始一首接一首地涌出风格类似的歌曲。你喜欢辛迪·劳博尔(Cyndi Lauper)和破嘴合唱团(SmashMouth)吗?瞧,Pandora.com为你创建了一个电台,专门播放劳博尔或者破嘴合唱团以及跟他们风格类似的歌曲。每一首歌播放的时候,你还可以点击“我确实非常喜欢这首歌”或者“下次不要再播放这首歌”,让这个电台更多地了解你的喜好。
这个网站对我和我的孩子来说实在是太有用了。它不仅可以播放我们大家都喜欢的音乐,而且还能找到许多我们从没听说过的音乐。例如,我告诉Pandora.com我喜欢布鲁斯·斯普林斯汀(Bruce Springsteen),所以它就为我创建了一个电台,播放Boss乐队和其他著名歌手的音乐。但是播了几首歌后,我就沉浸在它为我选出的基顿·西蒙斯(Keaton simons)的《现在》(Now)中了(而且它有快速链接,因此可以很方便地在iTunes。或者亚马逊上买到这首歌或唱片)。这就是长尾,因为像我这样的书呆子是不可能自己找到基顿·西蒙斯的。Rhapsody.om也有类似的偏好系统,这使得他们100万首歌单中90%以上的歌曲每个月都能被播放。
MSNBC.com最近增添了“故事推荐”功能。这个功能使用一个cookie文件来跟踪你最近阅读过的16篇文章,并利用自动文本分析工具预测你还想读什么样的故事。让人吃惊的是,这样的16个故事的记录几乎一定能够促使你养成早晨阅读的习惯。令我有点尴尬的是,它自动推荐给我的是《美国偶像》(American Idol)。
不过芝加哥大学的法律系教授卡斯·桑斯坦(Cass Sunstein)担心开发长尾偏好会带来社会成本。这些个性化的筛选系统越成功,我们共同体验的就越少。麻省理工学院的教授尼克拉斯·尼葛洛庞帝(Nicholas Negroponte)是传媒技术的专家,从这些“个性化新闻”特写中,他看到了“我的日报”,(Daily Me)——让市民们只接触迎合他们狭隘偏好的新闻出版物——的出现。当然,自我筛选新闻这一现象已经出现很长时间了。副总统切尼只看福克斯新闻(Fox News)。拉夫。纳达尔只读琼斯夫人(Mother Jones)的文章。不同之处在于,当今的科技正在创造着更强大的听众审核体系。Excite.com。和Zatso.net等网站开始允许用户为自己创立“我的报纸”和“个性化的新闻广播”。这样做的目的是创建一个“由你决定新闻”的平台。Google新闻(Google News)允许用户个性化设定自己的新闻群。邮件提醒功能和RSS阅读允许你选择“这是我想要的新闻”。现如今,如果愿意的话,对于那些自己毫不关心的社会问题的新闻报导,我们连看都不用看一眼。
所有这些合作筛选系统都是詹姆斯·索罗维基(James Sumwiecki)所说的“群众的智慧”的例子。在某些情况下,大家一起做出的预测比由其中任何一个成员做出的估计要准确得多。例如,假设能够准确猜出罐子里硬币数目的大学生,可以得到100美元奖励。把大家的估计简单地求一下平均数,就得出“群众的智慧”。无数次的实验表明,平均估计比任何个人的估计都更接近真实值。有人猜得过高,有人猜得过低;但是一经加总,过高的和过低的估计就相互抵消了。集体往往能够比个人做出更好的预测。
电视节目“谁想成为百万富翁”(Who Wants to Be a Millionaire)中,“征求观众意见”得到的答案正确率超过90%(而打电话给朋友得到的答案只有不到三分之二是正确的)。合作筛选是一种特别的观众投票方式。跟你相似的人可以很正确猜出你喜欢什么样的音乐和电影。需求偏好数据库能有效地改善个体决策过程。P21-24
奥利·阿什菲尔特(Orley Ashenfelter)非常喜欢喝葡萄酒,他说:“当上好的红葡萄酒到了年数,就会发生一些非常神奇的事情。”然而奥利不只是着迷于葡萄酒的口感如何,他还想知道隐藏在好的葡萄酒和一般的葡萄酒背后的力量。
他说,“每次你买上好的红葡萄酒时,就是在进行投资,因为它以后很有可能变得更好。而且你想知道的不是它现在值多少钱,而是将来值多少钱。即使你并不打算卖掉它,而是喝掉它。如果你想知道把从当前消费中得到的愉悦推迟,将来能从中得到多少愉悦,那将是一个永远也讨论不完的令人兴奋的话题。”这个话题花费了他二十五年的时间。
奥利的日常工作就是咀嚼数字。他使用统计学从大量的数据资料中提取出隐藏在数字背后的信息。作为普林斯顿大学(Princeton)的一位经济学家,他曾经利用双胞胎的工资水平来估计受教育年限的边际效应。他还曾经观察各州限速的差异来估计各州多么重视统计分析。他多年来一直担任美国最顶尖的经济学期刊《美国经济评论》(AmericanEconomic Review)的主编。
奥利身材高大,头发花白而浓密。他声音低沉而洪亮,总是能成为众人中的主角。他不是个性懦弱的人。人们对于咀嚼数字的人的根深蒂固的看法是认为他们往往优柔、孤僻,但是一看到他,这种看法很快就会消失。我曾经看到他兴高采烈地反复思索一篇研讨会论文背后的逻辑推理。当他开始大肆赞扬自己的言论时,要当心了。
真正令奥利困扰的是如何从数字中评估波尔多(Bordeaux)葡萄酒的品质。与罗伯特·帕克(Robert:Parker)这样的评酒专家通常使用“品咂并吐掉”的方法不同,奥利用数字指标来判断能拍出高价的酒所应该具有的品质特征。
“其实很简单。”他说,“酒是一种农产品,它会受到年复一年气候条件的强烈影响。”因此奥利采集了法国波尔多地区的气候数据进行研究,发现如果收割季节干旱少雨且整个夏季的平均气温较高,就有助于生产出品质上乘的酒。正如彼得·帕塞尔(Peter Passell)在《纽约时报》(New YorkTimes)中报告的那样,奥利给出的统计方程与数据高度吻合。
当葡萄熟透、甜度浓缩时,波尔多葡萄酒是最好的。夏天特别炎热的年份,葡萄容易熟透,酸度就会降低。炎热少雨的年份,葡萄汁的甜度就会浓缩。因此,天气越炎热干旱,越容易产出品质一流的葡萄酒。熟透的葡萄能生产出口感柔润(即低酸度)的葡萄酒,而甜度浓缩的葡萄能够生产出醇厚的葡萄酒。
奥利把他关于葡萄酒的理论简化为下面这个方程式:
葡萄酒的品质=12.145+0.00117×冬天降雨量+0.0614×生长期平均气温-0.00386x收获季节降雨量
这个式子是对的。把任何年份的气候数据代入上面这个式子,奥利就能够预测出任何葡萄酒的平均品质。如果把这个式子变得再稍微复杂精巧一些,他还能更精确地预测出100多个酒庄的葡萄酒品质。他承认“这看起来有点太数学化了”,“但是这恰恰是法国人把他们的葡萄园排成著名的1855个等级时所使用的方法。”
传统的评酒专家尚未接受奥利根据数据预测葡萄酒品质的做法。英国《葡萄酒》(Wine)杂志认为“这条公式显然是很可笑的,这使得我们无法重视它。”纽约葡萄酒商人威廉姆·萨科林(William Sokolin)说从波尔多葡萄酒产业的角度来看,奥利的做法“介于极端和滑稽可笑之间”。他也常常会被业界的人士所取笑。当奥利在克里斯蒂拍卖行酒品部(christie's Wine Department)做关于葡萄酒的演讲的时候,坐在后排的交易商嘘声一片。
发行过《葡萄酒爱好者》(The Wine Advocate)杂志的罗伯特·帕克大概是世界上最有影响力的葡萄酒作家了。他把奥利形容为“一个彻彻底底的骗子”。尽管奥利是世界上最受敬重的数量经济学家之一,但是他的方法对于帕克来说,“其实是在用尼安德特人的思维来看待葡萄酒。这是非常荒谬甚至非常可笑的”。帕克完全不认为数学方程式可能有助于鉴别出真正口感好的葡萄酒,“如果他邀请我去他家喝酒,我会感到厌恶”。
帕克说奥利“就像那些影评一样,根据演员和导演来告诉你电影有多好,但实际上却从没看过那部电影”。
帕克的意思是,正如亲自去看过一部影片然后再做影评会更准确些,要对葡萄酒的品质评断得更准确,是不是也应该亲自去品尝一下呢?但是有这样一个问题:有好几个月是无法品尝到葡萄酒的。波尔多和勃艮第(Burgundy)葡萄酒在装瓶之前需要盛放在橡皮桶里发酵18至24个月。像帕克这样的评酒家需要在酒装在桶里4个月以后才能第一次品尝到葡萄酒。即使在这个时候,葡萄酒还只是臭臭的发酵的葡萄而已。不知道此时这种无法下咽的“酒”是否能够使品尝的人得出关于酒的品质的准确信息。例如,巴特菲尔德拍卖行(Butterfield & Butterfield)酒品部的前经理布鲁斯·凯泽(Bruce Kaiser)曾经说过,“发酵初期的葡萄酒变化非常快,没有人,我是说不可能有人,能够通过品尝来准确地评估酒的好坏。至少要放上10年,甚至更久。”
与之形成鲜明对比的是,奥利从对数字的分析中就能够得出气候与酒价之间的关系。他发现冬季降雨量每增加1毫米,就倾向于使期望酒价提高0.00117美元。当然,这只是倾向于而已。不过对于数据的分析使得奥利可以在葡萄刚刚收获的时候就能预测出葡萄酒的未来品质——这在评酒师有机会尝到第一口酒的数月之前,更是在葡萄酒卖出的数年之前。在葡萄酒期货交易活跃的当今世界中,奥利的预测能够给葡萄酒收集者们极大的帮助。
80年代后期,奥利开始在半年刊的简报《流动资产》(Liquid Assets)上发布他的预测数据。他最初先在《葡萄酒观察家》(Wine Spectator)上给这个简报做小广告,随之逐渐发展成大约有600人订阅。这些订阅者的分布是很广泛的,包括很多百万富翁以及葡萄酒痴迷者——大多局限于小部分可以接受计量方法的葡萄酒收集爱好者。与每年花30美元来订阅罗伯特·帕克的简报《葡萄酒爱好者》的30000人相比,《流动资产》的订阅人数真是少得可怜。
20世纪90年代初期,《纽约时报》在头版头条登出了奥利的最新预测数据,这使得更多人了解了他的思想。奥利公开批判了帕克对1986年波尔多葡萄酒的估价。帕克对1986年波尔多葡萄酒的评价是“品质一流,甚至非常出色。”但是奥利不这么认为。他认为由于生产期过低的平均气温以及收获期过多的雨水,这一年葡萄酒的品质注定只能是平平。
然而,奥利对1989年波尔多葡萄酒的预测才是这篇文章中真正让人吃惊的地方。尽管当时这些酒在木桶里仅仅呆了三个月,还从未被评酒师品尝过,奥利就预测这些酒将成为“世纪佳酿”。他保证这些酒的品质将会“令人震惊地一流”。根据他自己的评级,如果1961年的波尔多葡萄酒评级为100的话,那么1989年的酒将会稳居149。奥利甚至大胆地预言,这些酒“能够卖到过去35年中所生产的任何葡萄酒的高价”。
看到这篇文章,评酒专家们非常生气。帕克现在把奥利的数量估计描述为“愚蠢可笑”。萨科林说当时的反应是“既愤怒又恐惧。他确实让很多人感到恐慌。”在接下来的几年中,《葡萄酒观察家》拒绝为奥利(以及其他人)的简报做任何广告。
评酒专家们开始辩解,极力指责奥利本人以及他所提出的方法。他们说他的方法是错的,因为这一方法无法准确地预测未来的酒价。例如,《葡萄酒观察家》的品酒经理托马斯·马休斯(Fhomas Matthews)抱怨说奥利对于价格的预测“在27种酒中只有3次完全准确。”即使奥利的公式“是为了与价格数据相符而特别设计的”,他所预测的价格“要么高于、要么低于真实的价格”。然而,对于统计学家(以及对此稍加思考的人)来说,所做出的预测有时过高、有时过低是件好事,因为这恰好说明估计量是无偏的。事实上,奥利确实证明了帕克对葡萄酒的评级系统性地上偏。因此,帕克不得不常常降低自己最初的评级。
1990年,奥利更加陷于孤立无援的境地。在宣称1989年的葡萄酒将成为“世纪佳酿”之后,数据告诉他1990年的葡萄酒将会更好。而且他也照实说了。现在回头再看,可以发现当时《流动资产》的预测惊人地准确。1989年的葡萄酒确实是难得的佳酿,而1990年的也确实更好。
怎么可能在连续两年中生产出两种“世纪佳酿”呢?事实是1986年以来,每年葡萄生长期的气温都高于平均水平。法国的天气连续20多年温暖和煦。对于葡萄酒爱好者们而言,这显然是生产真正柔润的波尔多葡萄酒最适宜的时期。
传统的评酒专家们现在才开始更多地关注天气因素。尽管他们当中很多人从未公开承认奥利的预测,但他们自己的预测也开始越来越密切地与奥利那个简单的方程式联系在一起。此时奥利依然维护自己www.liquidasset.com的网站,但他不再制作简报。他说,“和过去不同的是,评酒师们不再犯严重的错误了。坦率地说,我有点儿自绝前程。我不再有任何附加值了。”
指责奥利的人仍然把他的思想看作是异端邪说,因为他试图把葡萄酒的世界看得更清楚。他从不使用华丽的词藻和毫无意义的术语,而是说出预测的依据。
整个葡萄酒产业毫不妥协不仅仅是在做表面文章。“葡萄酒经营商及专栏作家只是不希望公众知道奥利所做出的预测”,凯泽(Kaiser)说。“这一点从1986年的葡萄酒就已经显现出来了。奥利说那(译者注:指当时评酒师们对于1986年葡萄酒的评级。)是骗人的,因为那一年的气候对于葡萄的生长来说非常不利,雨水泛滥,气温也不够高。但是当时所有的评论专栏作家都言辞激烈地坚持认为那酒会是好酒。事实证明奥利是对的,但是正确的观点不一定总是受欢迎。”
葡萄酒经营商和专栏评论家们都能够从维持自己在葡萄酒品质方面的信息垄断者地位中受益。葡萄酒经营商利用长期高估的最初评级来稳定葡萄酒价格。《葡萄酒观察家》和《葡萄酒爱好者》能否保持葡萄酒品质的仲裁者地位,决定着上百万资金的生死。正如厄普顿·辛克莱(Upton Sinclair)(现在是阿尔·戈尔)所说,“当一个人的工资取决于他没有搞明白的某件事情时,很难让他相信这件事情”。对于葡萄酒来说也是如此。“很多人要谋生下去,就依赖于喝酒的人不相信这个方程式,”奥利说。“他们会被激怒,因为他们突然之间感到自己落伍了。”
也有迹象表明事情正在发生着变化。伦敦克利斯蒂拍卖行国际酒品部(International Wine Department)主席迈克尔·布罗德本特(Michael Broadbent)委婉地说:“很多人认为奥利是个怪人,我也认为他在很多方面是很怪。但是我发现,他的思想和工作会在多年后依然留下光辉的痕迹。他所做的努力对于打算买酒的人来说非常有帮助。”
棒球界的奥利·阿什菲尔特
品酒师的广阔世界似乎与棒球的宽敞看台截然不同。但是奥利正在努力为葡萄酒产业所做的事情,从很多方面来看正是作家比尔·詹姆斯(Bill James)为棒球产业所做的事情。
詹姆斯在他每年一期的《棒球摘要》(Baseball Abstract)中批判棒球专家仅仅根据观看球员比赛来判断球员能力的做法。迈克尔·路易斯(Michael Lewis)在《魔球》(Moneyball)中说詹姆斯的观点预示着棒球界也将基于数据判断。詹姆斯的论断简单而有力,他认为对棒球的数据分析比仅凭观察要好:
肉眼的观察不足以让人了解到评价一个球员的标准。想想吧。仅凭观察是不可能看到上垒率0.300的击球手和0.275的击球手之间的差别,他们仅仅是每两个周击一下的差别。如果你一年观看15场比赛,那么0.275的击球手就有40%的可能性比0.300的击球手击出更多安打。好的击球手和一般的击球手的差别是不容易看出来的,只有从他们的记录上才能看得出。
和奥利一样,詹姆斯相信公式。他说,“评价击球手的标准应该是根据他努力做什么以及他努力去做的是否制造了快跑得分。”因此詹姆斯接着提出一个能够更好地衡量击球手对于制造跑动所作贡献的新公式:
垒得分=(安打垒+保送上垒)×总垒数/(打数+保送上垒)
这一公式更加强调球员在垒的比重,尤其给那些保送上垒更频繁的球员更高的评级。詹姆斯用数字说话的这一做法令那些物色球员的球探们极为厌恶。如果说罗伯特·帕克等评酒师是靠着味觉和嗅觉吃饭的话,那么这些球探们就是依靠眼睛谋生。那是他们的附加价值。正如路易斯所说:
在球探们看来,要找到一个好的棒球球员,需要开车走6000多公里,住过上百次破烂的汽车旅馆,在Denny's餐厅吃过天知道多少顿饭,才能在4个月内看完200场高中或者大学的棒球比赛,其中199场对你来说完全没有意义。你必须走进球场,在铝栏杆后面的第四排找到一个位子,这样才能正好坐在接球手的正后方以便看到其他人看不到的细节——至少看到那些对棒球一无所知的人所看不到的东西。而且你只有一次机会观察每个球员。“如果你看了一次,就是那样了。”
球探与罗伯特·帕克等评酒师的共同之处不仅仅在于他们都嗜好品咂。正如帕克相信自己可以只尝一口就评断出拉图尔葡萄酒的优劣一样,棒球球探们也相信自己可以只看一场球赛就判断出某个球员的能力。
在这两种情境中,人们都在试图预测某种未成熟的产品的市场价值,无论是葡萄酒还是棒球球员。而且在这两种情境中,核心的分歧在于应该根据经验观察还是根据统计数字来做出判断。
球探们和评酒师一样,经常使用一些无法证伪的委婉表达,比如“他是个真正的球员”。
根据《魔球》描述,数字派和传统观察派之间的冲突是在2002年奥克兰运动家队(Oakland A)的总经理比利·比恩(Billy Beane)想要买杰里米.布朗(Jeremy Brown)时显现出来的。比恩读过詹姆斯的文章,并决定要根据数据来买球员。比恩非常喜欢杰里米-布朗,因为他比其他大学棒球球员走动得更积极。但是球探不喜欢他,因为他很胖。一个奥克兰运动家队俱乐部的球探讥讽布朗说,如果他想穿着灯芯绒跑起来的话,“会引起火灾的”。球探们认为像他那样身材笨重的人决不可能在球队中打主力。比恩却丝毫不在乎球员的外表看起来怎么样。他召集球员时的座右铭是“我们并不是在卖牛仔裤”。比恩关心的只有打赢比赛。看来是球探们错了。布朗的进步比那年该俱乐部所买到的所有其他球员都快。2006年9月,他成为奥克兰运动家队的主力,第一场比赛中就打出0.300点(而且上垒率高达0.364)。
在开始努力传播数据分析所得出的想法时,奥利·阿什菲尔特和比尔.詹姆斯之间有惊人的相似之处。和奥利一样,詹姆斯也是从在他的第一份简报《棒球简报》(詹姆斯婉转地称它为“书”)上作小广告开始的。之后的第一年里,他的简报总共卖了75份。和奥利被《葡萄酒观察家》封杀一样,詹姆斯在要求美国体育官方数据统计机构(Elias Sports Bureau)分享数据时也遭到了冷遇。
但是,詹姆斯和阿什菲尔特都已经在各自的领域内留下了永久的印记。《魔球》中所详细记载的奥克兰运动家队的长期成功,甚至在数据派爱普斯坦Theo Epstein)的带领下波士顿Red Box棒球队赢得的第一次世界冠军,都是对詹姆斯持久影响力的礼赞。而最传统的专栏评论作家们根据天气情况来改善自己对葡萄酒的评估,也是在向阿什菲尔特的影响力默默致敬。
詹姆斯和阿什菲尔特都引致了以数据分析而享誉的专门组织的诞生。詹姆斯启发了美国棒球研究协会的成立。现在甚至还有专门的词汇来表示棒球数据分析:赛伯计量学(Sabermetrics)。2006年,阿什菲尔特协助建立了《红酒经济月刊》(Journal of Wine Economics)。现在甚至还有一个专门的葡萄酒经济学家协会,而且令人毫不吃惊的是,由阿什菲尔特担任第一届主席。顺便说一下,阿什菲尔特的第一个预测在事后看来令人震惊地准确。笔者查阅过拉图尔酒庄(Chateau Latour)近年的葡萄酒拍卖价格,1989年葡萄酒的卖价的确是1986年的两倍多,而1990年葡萄酒的卖价更高。罗伯特.帕克,接受现实吧。
酒后吐真言
这本书要说的超级数字分析的崛起并不仅仅孤立地发生在葡萄酒产业和棒球界。事实上,葡萄酒和棒球的例子只是这本书主旋律的缩影而已。现在正处于类似于马力与动力孰优孰劣的历史时刻,而直觉判断和经验估计一次又一次地在与数字分析的竞争中失利。人们以前做的很多决策都仅仅简单地根据经验和直觉。一个人经过多年不断试错的经历以后就可以成为专家。我们可以相信他们知道最好的方法,因为他们已经经历过成百上千次。经验专家曾经可以过活,并一度极受推崇。如果你想知道该做什么,那就去咨询那些灰白头发的专家们。
但是现在情况正在改变。商界和政府部门的专业人士正在逐渐利用数据来指导决策。对冲基金公司所做的事情其实是数据分析的新脉——把他们叫做超级数字天才(Super Crunchers)——因为他们通过分析庞大的数据库来揭示表面上似乎毫不相关的事情之间的经验关系。当你购买很多欧元的时候,想做对冲保值吗?那么你可能要卖出一个经过仔细计算得出的包含26只其它股票和商品的投资组合,没准里面就有沃尔玛的股票。
什么是超级数字分析呢?超级数字分析就是能够影响真实世界决策的统计分析。超级数字分析预测综合考虑大小、速度和影响力。数据库往往非常大——无论是观察值的数目,还是变量的数目。数据分析的速度越来越快,经常在数据刚刚敲进去的时候就可以看到实时的分析结果。数据分析的影响力有时真的是相当大。超级数字分析不是一群迂腐的学究们在偏执地制造煽动性的期刊论文,它是由决策者执行并为自己决策服务的,目的是寻找更好的方法。
刚才我说到超级数字天才们使用的数据库很庞大,我是说它们真的很庞大。越来越多的数据库不是用兆字节或千兆字节来计算,而是用太拉(terabyte)甚至拍塔字节(Petabyte,等于1000太拉字节)来计算。1太拉字节等于1000千兆字节。tera是一个前缀,在希腊语中是“怪物”的意思。太拉的确是像怪物一样庞大的数字。整个美国国会图书馆的所有资料数据总共20太拉。本书的一个目的是说,我们要开始习惯这个前缀。例如,沃尔玛的数据仓库中存储着570多太拉的数据。Google经常用来分析的数据大约有4拍塔。处理太拉级的数据并不是巴克·罗杰斯(BuckRogers)主演的科幻电影——这是现在真真切切进行着的事情。
“直觉专家”以及传统的专家们正在越来越多的领域里与超级数字天才们较量着。医药行业关于“循证医学”(Evidence Based Medicine)如火如荼的激烈争论,归根到底就是关于是否应该基于统计分析治疗的争论。在这场争论中,直觉专家们不战而败。他们声称数据不可能捕捉他们毕生从医过程中所累积起来的临床经验,而且回归方程也不可能像一位有20年急救护理经验的护士一样辨别出小孩子是不是看起来不太对劲儿。
我们往往认为国际象棋大师加里·卡斯帕罗夫(Garry Kasparov)之所以不敌“深蓝”计算机,是因为IBM的电脑软件比人更聪明。那个软件的确存储着千兆字节的数据,它可以给不同棋盘布局的威力进行排序。电脑的速度确实很重要,但是真正起决定性作用的是这台电脑能够处理700000大师级国际象棋比赛的数据。卡斯帕罗夫的直觉判断败给了基于数据处理的策略。
超级数字天才不仅干扰并取代着传统的直觉和经验专家,他们还在改变着我们的生活。他们不仅在改变着决策的方法,也在改变决策本身。棒球球探正在被电脑程序取代,不仅仅因为数字分析比到处飞行去观察要省钱得多,还因为球探们做了很多错误的预测。当然,超级数字天才和专家们并不总是意见相左。有时数字分析也会证实传统的经验法则。这个世界也不至于不近人情到让传统的专家们百分之百地犯错误,或者纯粹是碰运气。然而,数字分析却可以使决策者做出不同的而且基本上来说更好的选择。
各个领域的统计分析都在揭示出隐藏在各种各样不同的信息背后的相互关系。如果你是一位政界人士,想要知道谁最可能给你赞助以及什么形式的游说最可能奏效,你没必要臆测,也没必要使用经验法则,更没有必要相信那些头发花白的传统专家。现在越来越可能弄清楚相互独立的各种因素的可测度效应,从而你就可以知道什么形式的游说最可能奏效。对数据认真细致的分析可以揭示出传统专家们从没想到过的隐含的因果关系。
数字决策已经在我们身边渐渐兴起:
·汽车租赁公司以及保险公司开始拒绝为信用评级不良的客户提供服务,因为数据分析告诉他们,信用等级与出车祸的高概率密切相关:
·如果某个航班被取消,航空公司现在的做法是忽略经常坐他们飞机的老主顾,而把下一个空座给自我认知程度高的顾客,因为这种顾客会不会继续使用本公司服务的不确定性最大。航空公司现在不再遵循先到先得的原则,而是根据许多因顾客而定的因素来确定他们的做法。
·“不让任何孩子落后”法案(No Child Left Behind Act)要求学校采取的教学方法必须经过严格的数据分析得出。这一法案使得老师们把45%的课堂时间用于教孩子怎样才能通过各种标准化考试。超级数字分析甚至让一些老师开始把每堂课上的每一个单词都做注解,并且从统计的角度去审视。
直觉专家们注意了。本书将详细地介绍一系列超级数字分析故事及其主人公,会令你眼花缭乱,目不暇接。数据分析革命并不仅仅关系到棒球界,甚至也不局限于整个体育界。它关系到我们所有人的生活。超级数字分析革命常常给消费者带来实惠,因为它能够帮助卖者和政府更好地预测谁将需要什么。但是,有时消费者和数据分析相对立。数据分析真的会对弱势群体(译者注:指消费者。)不利,因为卖者可以更清楚地知道他们可以从我们这里榨取到多少。
史蒂夫 D.·列维特(Steven D.Levitt)和斯蒂芬J.·迪布纳(Stephen J.Dubner)在《魔鬼经济学》(Freakonomics)给出了许许多多的例子来表明统计分析是如何揭示隐含的因果关系。列维特和约翰·多纳休(John Donohue)(他们俩都既与我合著过书,又是我的好朋友,后面会看到更多关于他们的事情)证明了看起来毫不相关的事件之间——比如说1970年的堕胎率和1990年的犯罪率——存在重要的联系。然而对于数量分析在多大程度上能够影响真实世界的决策行为,《魔鬼经济学》并没有讲太多。相反,这本书正是讲数据分析的影响力。不管商界还是非商界人士,他们做出决策时使用统计分析的广泛程度也许是你无法想象的。
全世界所有产业都在根据现代计算机的数据处理能力来重建。20世纪5、60年代,像万斯·帕卡德(Vance Packard)在《隐蔽的说客》(The Hidden Persuaders)中所写的那样,人们预期(和担心)在大政府和大企业的指令下,复杂的社会工程会主导整个世界。这种预期(和担心)突然在新世纪重新出现。但是在我们曾经担心大政府会通过指令和控制来解决人类所有问题的领域,类似的现象又出现了,只不过是大规模数据网络的形式罢了。 我为什么写此书
我自己本身就是一个超级数据分析迷。尽管我在耶鲁大学教法律,但是在麻省理工学院读博士时学过计量经济学。我曾经对几乎所有事情都做过数据分析,从保释保证书和肾移植,到密携枪支和不计后果的性行为。也许你会认为象牙塔里的学究们与真实世界的决策制定毫无相干(没错,我的确是那种心不在焉的教授,我曾经在火车上写文章写到如此全神贯注,结果忘记在纽海文下车而坐到了波基普希)。不过,即使是学究们所做的数据分析有时也会对现实世界有影响。
几年前,我和史蒂夫·列维特组成课题小组,研究一个非常有实际意义的课题——LoJack失窃汽车导航系统对汽车盗窃行为的影响。LoJack是一个小小的无线电发射器,它可以隐蔽地放置在车内。如果车主报案说汽车被盗,那么警察就可以遥控激活这个发射器,然后特别装备的警车就能够根据信号找到被盗汽车的精确位置。因此,LoJack在寻回失窃汽车方面非常有效。LoJack公司知道这一点,因此他们在广告中自豪地称寻回率高达95%。但是我和史蒂夫想要检验一下LoJack是不是真的有助于降低汽车盗窃案件的发生。很多反盗窃装置的问题在于它们也许仅仅使得偷车贼转而去偷其他车而已。如果你在车上贴上“会员”,很可能使小偷走过你的车而去偷另一辆车,但却没有阻止他偷车。LoJack比较酷的一点是,它是隐蔽的。在LoJack覆盖的城市中,小偷不知道某辆车有没有装LoJack。
这种与常理相悖的东西正是列维特喜欢探究的。《魔鬼经济学》的评论人说得没错,史蒂夫观察事物的角度与常人不同。好几年前,我有一张多余的芝加哥公牛队篮球比赛的球票,所以邀请史蒂夫和我一起去看迈克尔.乔丹打球。史蒂夫说如果他给这场比赛投注的话,他会更好地享受这场比赛,而并不在乎公牛队是赢是输(这与我恰好相反)。所以在比赛开始前,他上网投了很大一笔注,赌公牛队会赢。这下他真的投注到这场比赛了,这个赌注改变了他的动机。
很奇怪的是,LoJack也是一个可以改变人们动机的装置。LoJack出现之前,很多专业的偷车贼几乎都没被抓到过。LoJack改变了这一切。有了LoJack,警察不仅可以找回汽车,还可以抓到偷车贼。仅在洛杉矶地区。LoJack就破获了100多个贼车解体店。也就是说,如果在LoJack覆盖的城镇里偷100辆车,就几乎一定会偷到装着LoJack的车。我们想要检验的是,一般来看,LoJack是否吓得偷车贼不敢偷车了。如果确实如此,那么LoJack的使用带来了经济学家所说的“正外部性”。如果你在车上贴上“会员”标志,就可能增加了其他车被偷的概率。然而,我和史蒂夫都认为如果足够多的车主在车里安装了LoJack,可能有助于吓得那些专业偷车贼连放在他们汽车周围的车也不敢偷了。
我们遇到的最大困难是说服LoJack公司把他们的销售数据给我们。我还记得当时我们打了无数次电话,努力让他们相信如果我们的推断是正确的,就会让人们又多一个购买LoJack装置的理由。如果安装LoJack能够降低别人汽车被偷的概率,那么LoJack也许能够使保险公司愿意给安装了LoJack的车主更大的折扣。最后,LoJack公司的一位中级主管给了我们大量有用的数据。但老实说,刚开始,LoJack公司对这个研究课题并不怎么感兴趣。
当他们看到我们的文章初稿时,一切都彻底改变了。我们分析了56个城市在14年内发生的汽车盗窃案件的数据后发现,安装LoJack对于别的车主有非常显著的正效应。在盗车案高发地区,在LoJack上每投资500美元,就能帮助没有安装LoJack的车主减少损失5000美元。由于我们把LoJack的销售数据按年份和城市分别归类,这样就可以非常准确地估计出马路上行驶的汽车中有多大比例已经安装了LoJack。(比如在波士顿,享受国家强制最高保险折扣的车主中,10%以上都安装了LoJack。)我们还估计了当LoJack使用人数增加时,对于全市汽车盗窃案件发生频率的影响。由于LoJack公司在不同城市开始销售LoJack产品的时间不同,所以我们使用不同年份的盗车案数据分别估计出LoJack的影响。结果发现,在每个城市,当安装LoJack的车主比例增加时,汽车盗窃案急剧减少。这样看来,保险公司原本给LoJack用户的折扣还不够高,因为他们没有把LoJack用户对于显著减少非LoJack用户的支出这一因素考虑进去。
我和史蒂夫从未买过LoJack公司的股票(说实话,这是因为我们不想改变自己的动机),但是我们知道我们已经掌握了极具价值的信息。我们的研究报告公布时,LoJack公司的股票涨了2.4%。我们的研究还使得其他城市纷纷采用LoJack装置,并且略微提高了保险公司的保险折扣(但是这一折扣还远远不够高)。
我这里要说的核心思想是,我热忱于数据分析。我曾经是数据餐厅中的一名厨师。和阿什菲尔特一样,我也是一本严肃的学术期刊《法律、经济学和组织机构期刊》(如Journal of Law,Economics,and Organization)的编辑,所以我总是需要评价统计论文的质量。因此,我非常适合探索数据决策方法的兴起,因为我既是一位参与者,又是一位旁观者。我知道事情的来龙去脉。
本书框架
接下来的五章将详细介绍超级数字分析在整个社会的崛起。前三章介绍两个基本的统计方法——回归和随机试验,并展示数量预测技巧如何重构商业和政府。第四章讲循证医学之争,而第五章通过几百个统计检验来比较数据决策方法和经验直觉决策方法。
本书第二部分会再次评价这种趋势的重要性。我们将分析这种变化为什么会发生以及我们是否该为之感到高兴。第七章分析哪些人会因此而受损——无论是社会地位还是做决断的自由度。最后,第八章会展望未来。超级数字分析的崛起并不意味着直觉判断的消亡,也不是说工作中累积的经验不重要。相反,我们将看到一个崭新的时代:最优秀、最聪明的人对于运用统计和直觉都游刃有余。
最后需要指出,本书并不试图否定根据直觉和经验来做出决定,但是我们会展示直觉和经验将如何在数据决策上相互促进。事实上,确实有一类创造性的超级数字天才——像史蒂夫·列维特这样的人,他们在直觉和数据之间自由穿梭,从而能够比直觉专家或者电脑程序看得更远。