本书是由美国统计专家达莱尔·哈夫写就的传世之作,该书引发的“编造虚假信息”话题受到美国社会持续普遍的关注和美国权威媒体的激烈争论。它自50年代出版以来就不断一版再版,并被翻译成多种文字,在世界的影响力持久不衰,被誉为美国商业人士、研修人员的重要入门必修书之一。书里面大胆地揭露了至今仍然被销售员、广告撰稿人、记者甚至专家频频使用的大量的统计操纵技巧,同时还配有别具一格的风趣插图以及众多幽默的案例。神秘的统计学在这里被哈夫像讲故事一样一一道来,莞尔一笑中让你知晓深奥的统计学基本原理,掌握揭露“虚假数据”的最有力武器……
统计这种神秘的语言,在一个用事实说话的社会里是如此吸引人,但有时它却被利用并成为恶意夸大和迷惑他人的工具。美国统计专家达莱尔·哈夫的这本经典作品《统计数字会撒谎》用风趣的插图和通俗语言把高深的统计学写得像“故事书”一样精彩,给你揭露大量至今仍被销售员、专家、记者或者广告撰稿人频频使用的“行骗工具”:有偏的样本,可以挑选的平均数,遗漏某些重要数据,混淆因果关系等。
有一个装着红、白两色豆子的桶,如果你想要准确知道这个桶中两种豆子的数量,你惟一能做的只有一颗一颗地数豆子。
用一种更简单的方法也可以揣测红豆的数量:抓一把豆子,假定手中红豆的比例与桶中红豆的比例相同,只要数一数手中的豆子即可。如果你的样本足够大,并且选择方法正确,在大多数情况下它能够很好地代表整体。但是,如果以上两个条件不满足,这样的样本比一个臆想好不到哪儿去,除了能够营造科学精确的假象之外,其他则根本不值一提。不幸的是,我们所看到的,或者我们自以为了解的许多事物,往往都是根据类似样本所得出的结论,这种样本可能变得有偏,由于选择方式的不合理或者容量过小,抑或两种情况同时存在。
通过一个极端的例子可以马上看到如何形成有偏的样本。假设你向同胞发放问卷,问卷中包含这样一个问题:“你乐意回答调查问卷吗?”整理所有的答案,你很有可能得到下面的结论:“一个选自总体、典型的横截面”中,压倒多数的人选择了“乐意”。为了具有说服力,你还可以详细列出这个比例,直至最后一位小数。事实上,大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓中,从样本中自动除名了。哪怕最初的样本中,10个里面有9个会当这种“投手”,在宣布你的结果时,你仍然会遵从惯例,忽略他们。
现实生活中,样本会按照上述方式变得有偏吗?相信我,一定会。
不久前,报纸和新闻杂志上报道:近10年来美国大约有400万名天主教徒变成了基督教徒。资料来源于由丹尼尔·A.波林(Darnel A.Poling)牧师主导的调查,丹尼尔·A·波林是教派组织《基督教先驱报》(Christian Herald)的编辑。《时代》(Time)杂志描述了整个故事的梗概:
“通过对全美基督教牧师的横截面展开调查,《先驱报》得到了凋查结果。调查共发出25000份问卷,其中2219名牧师反馈回了问卷,回收的问卷显示:在过去10年里共有51361名原罗马天主教徒变成了基督教徒。根据样本推算,波林得到了全国范围的估计:近10年来全美共有4144366名天主教徒改变信仰,变成了基督教徒。主教威尔·奥斯勒(will 0urslex·)写道:‘即便考虑到误差,全美范围内这一数据也不可能少于200万或者300万,而且很有可能接近500万。’”
到被调查的牧师巾超过90%的人没有回答,这已经值得我们向它鞠躬表示敬意了。为了彻底破坏调查结果的可信度,我们只需要指出:这个“500万”是不可靠的,因为调查中有高达90%,的牧师没有发表看法,或许他们中大多数都早已将调查问卷投进了纸篓。
根据以上判断,我们利用管辖范围内所有牧师人数,即181000人——该数据就是波林博士计算时所采用的数据——进行自己的推算。由于从181000名牧师中抽取了25000人接受调查,得到了改变信仰的教徒为51361人,如果调查全部牧师,转变信仰的总人数应该约为370000人。
我们这种粗糙的方法产生了一个十分可疑的数据,但是它至少与那个在全国范围发布的数据一样“可靠”,而后者却是前者的11倍,是的,300万看上去更加令人欢欣鼓舞些。
至于奥斯勒先生充满自信的那句话“考虑到误差”,好吧,如果他发现了一种方法足以弥补未知量所带来的误差,那么整个统计界都将会为之感激涕零。
在上述背景下,让我们来研究一则以前的新闻报道:“1924级的耶鲁毕业生平均年收入为25111美元”,要知道几年前的钱是更值钱的。
好家伙,他们干得真不赖!
可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表面看到的那样,足以证明如果你把你的男孩送进耶鲁大学,或者牛津大学,那么在年老时,你就不需要辛苦地上班,甚至他将来年老时也不用上班?
在充满怀疑的惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人的精确;它大得令人难以置信。
对一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以元为单位,这几乎不太可能。就算是自己去年的收入,除非全部来自薪水,否则也很难知道得如此准确。但是对于年收入25000美元的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水。
而且毫无疑问,这个可爱的平均数出自耶鲁人之口。即使1924年他们在纽海文接受过优良的教育,也很难保证四分之一个世纪后,他们还能坚持说真话。当问及收入时,有些人出于虚荣或者天生乐观而夸大数据;有些人却故意缩小数字,特别当涉及征所得税问题时,往往会犹豫不决,生怕与其他文件填报的数据不符,谁知道税务员又看到了什么?这两种趋势——夸大与缩小,也许将相互抵消,但这种可能性很小。一般而言,一种趋势总会强于另一种,但我们很难猜测哪种趋势将胜出。
……
P3-6
我的岳父从爱荷华州到加利福尼亚州不久便对我说:“你们这儿治安不好。”在他所阅读的关于加州的报道的确如此。但是,这些报道通常来自一份爱荷华州的报纸。这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。
我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。
几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。正如一位幽默的非医学权威人士,亨利·G·菲尔森(Henry G.Felsen)不久前所指出的——正确的治疗的确能在7天内治愈感冒,但是即使不进行任何治疗,感冒也能在一个星期内痊愈。
统计这种神秘的语言,在一个靠事实说话的社会里是如此地吸引眼球,但有时它却被人利用,并成为恶意夸大或简化事实、迷惑他人的工具。在报告社会经济趋势、商业状况、民意调查和普查的大量数据时,统计方法或者统计术语是必不可少的。但如果作者不能正确理解并恰当地使用这些统计语言,而读者又并不能真正了解这些术语的含义,那么,统计结果只能是废话一堆。
在科能技主题的文章中,经常充斥着滥用统计资料的现象,每一个数据都很有力地打消你的疑虑,都张着嘴告诉你这是对的,但是人们很难联想到这样一种场景:灯光如豆的实验室中,“白衣英雄们”仍在不计报酬、不辞辛劳地包装这些数据。统计,就像最神奇的化妆术,只要略施粉黛,东施尤胜西施。巧妙伪装的统计资料胜过希特勒的弥天大谎,虽然它也会引起人们的误解,但制造它的人却能巧妙脱身。
这本书是一本如何利用统计瞒天过海的入门读物。看上去,它很像骗子的行骗宝典。但或许我可以模仿一个已退休的窃贼——如何神不知、鬼不觉地撬开一把锁,他的回忆录达到了研究生课程的水平——替这本书说句公道话:毕竟,骗子对于行骗的技巧早已胸有成竹,而诚实的人出于自卫也应该掌握它。
有3种谎言:谎言、糟糕透顶的谎言和统计资料。
——英国前首相 本杰明·迪斯雷利
哈夫先生用如此生动的、充满人情味的方式来论述统计这个干巴巴的课题,真是一剂灵丹妙药……我们太需要这本书了,它虽然娱乐性强浅易读,却十分具有说服力。
——《管理评论》
这是一本善意破坏性的书,读完它后,你对于‘万能统计’的信任将大大降低。
——《大西洋》
作者和制图者倾注了全力,给大家提供了一本十分轻松活泼的读物和卡通画。它们能给你带来娱乐,又能引发思考,而且还揭穿了许多统计方法的谎言。
——《图书期刊》