内容推荐 有人说,“数据决定生活”。在大数据时代,这句话已成为不辩自明的真理。几乎无处不在的数据,小能反映成绩、体重、天气,大能左右投票结果、影响经济增速、抹杀气候变化。然而,许多数据其实并不像表面上标榜的那样客观、公正,反而常常被人操纵,来误导我们。因此,是时候为数据正名,认清数据陷阱背后的真相了。 在本书中,荷兰计量经济学家、数据统计记者桑内·布劳就将带领读者“数”落世界,通过真实案例,从南丁格尔用大数据来挽救生命,到美国烟草业报告造假,再到欧盟公投中的票数摇摆,揭示日常生活中的数据偏见,教你如何不再盲信数字,练成大数据时代人人必修的“避坑大法”。 作者简介 桑内·布劳(Sanne Blauw),荷兰计量经济学家、数据分析记者,博士毕业于拉斯谟经济学院,长期致力与数据研究,揭示数字对生活的影响,试图矫正荷兰人对数据的偏见。目前,她在荷兰门户网站“通讯员网”(De Correspondent)担任通讯记者。 目录 前言 拨开数据的迷雾 第一章 大数据分析的先驱:南丁格尔 第二章 愚蠢的数据:肤色和智商是否有关 第三章 统计中常见的基本错误 第四章 数据可以是骗人的鬼才 第五章 你的大数据被滥用了吗 第六章 你的心态,决定了数据的价值 后记 如何让数据回到正途 核对清单 当你看到数据时,该怎么做 说明与推荐阅读 致谢 序言 前言 拨开数据的迷雾 胡安妮塔在我对面那张 折叠椅上坐定了之后,我 用西班牙语跟她解释说, 我来自荷兰的一所大学, 到玻利维亚来是想做一份 关于幸福指数和贫富差距 的调研。我告诉她,下面 我将问她一些问题,了解 一下她对自己的生活和国 家的看法。 我对这类谈话早已驾轻 就熟。塔里哈是玻利维亚 的一座小镇,靠近阿根廷 边境,而我在这儿采访当 地居民已经整整十天了。 为了采集到足够的数据, 我和摆地摊的妇人聊过天 ,与种草莓的农民喝过啤 酒,还和几个家庭吃过烧 烤。之前有一位妇女组织 的干事愿意帮我和当地的 家政人员,也就是像胡安 妮塔这样的妇女取得联系 ,于是我带着一摞问卷来 到了该组织的办公室。 “我们开始吧。”我说,“ 你今年几岁?” “58岁。” “你是哪个族裔的人?” “我是艾马拉[1]人。” 哎哟,我想,她可是当地 原住民呢。 我以前还真没碰见过几 个。 “你的婚姻状况是?” “单身。” “你识字吗?” “不识。” “你会写字吗?” “不会。” 我又陆续询问了她的职 业和受教育程度,还有家 里是否有手机、冰箱和电 视机等问题。 “我每个月赚200玻利维 亚诺[2]。”我问到她的 收入时她告诉我。这个数 字远低于玻利维亚总统埃 沃·莫拉莱斯不久前刚提的 最低工资标准815玻利维亚 诺。“要是我向老板提出涨 薪的要求,我怕她会解雇 我。所以我现在只能住在‘ 卡皮塔’里。”我顺手把“卡 皮塔”这个词写了下来,但 我当下并不明白它是什么 意思。之后我才了解到, 这是一种小帐篷。 问卷的最后一部分是调 研的核心内容,即幸福指 数和贫富差距。我在荷兰 鹿特丹伊拉斯谟大学的办 公室位于教学楼的11层。 我在办公室墙上贴着5张用 幻灯片制作的图表,每张 都代表了一种收入分配的 方式。当时我的教授还特 意让我再三确认,所有图 表的尺寸都一样。 但是,来到玻利维亚调 研的第一天我就发现,贫 富差距的问题不适用于每 个人。我之前采访过摆地 摊的妇女,她们就看不懂 这些图表的意思,更别提 不会读写的胡安妮塔了。 所以我决定跳过这部分。 然而,我还没来得及问 下个问题,胡安妮塔却开 口了,她坐直了身子,说 :“你知道玻利维亚是怎样 的吗?这个国家有非常多 的贫困户,还有极少数的 超级富豪。两者之间的贫 富差距会变得越来越大。 在这里,人与人之间根本 就没有任何信任,你说这 疯狂不疯狂?” 其实,胡安妮塔在毫不 知情的情况下,已经回答 了A图表中的问题,同时还 回答了我的另外两个问题 :对未来的展望和对国民 之间信任度的看法。之前 我真是小看她了。对此, 我感到一丝丝羞愧,但我 假装若无其事,继续提问 。还剩下最后几个问题。 “请你用数字1—10表示 你现在的幸福指数。” “1。”“那未来五年内你 觉得自己的幸福指数会是 ?” “1。”…… 却比对文字要大得多。 同时,在新闻领域做了几 年研究之后,我得出了一 个结论:数字在我们的生 活中已经变得过于重要。 数字的导向性已经大到让 我们再也无法继续忽视滥 用数字的现象。是时候揭 开数字背后的真相了。 但是,本书不是要读者 去抵制数字。数字本身和 文字一样是无辜的,犯错 的是数字背后的人。本书 讲的就是这些人,讲的是 他们的直觉、认知偏差和 利益关联。在本书中,你 将会看到:心理学家用数 字包装种族歧视的观点; 世界顶尖性学研究员采集 数据的过程其实见不得光 ;烟草巨头们滥用数据, 上百万人为此赔上了性命 。 本书也讲我们自己。作 为数据消费者,是我们自 己选择走入数字陷阱被它 欺骗。更严重一点儿说, 是我们自己选择被数字牵 着鼻子走。数字影响着我 们吃什么、喝什么、在哪 儿工作、挣多少钱、住哪 儿、和谁结婚、投票给哪 个党派、能否贷到银行贷 款,以及要交多少保险费 。数字甚至还影响你是生 病了还是痊愈了,是活着 还是死了。 就算你觉得自己和数字 毫不相干,那也无济于事 ,因为你肯定和数字有着 千丝万缕的联系。 本书将分析揭秘数字的 世界,让人人都能辨别正 确使用数据和滥用数据的 情况。所以,我们要问问 自己:我们希望数字在生 活中扮演什么样的角色? 是时候为数字正名了: 它既不是一切的基石,也 不是一无是处,它应该和 文字结合使用。 在那张问卷前,我们先 面到最初的问题:人类对 于数字的痴迷是从何时开 始的?想回答这个问题, 我们就得从历史上最著名 的护士——弗洛伦斯·南丁 格尔——开始说起。 导语 多则故事与案例,普通人也能理解大数据和统计学问题:吸烟真的致癌吗?喝酒真的有害吗?信用分数到底影响了贷款的哪些方面?…… 实用的防骗指南,有了它,不再被数据忽悠!贴心核对清单,六个问题,助你练就火眼金睛! 穿插相关图表,说明清晰又幽默,看似枯燥的统计知识轻量化! 荷兰计量经济学者、数据分析记者现身说法,多年统计学研究和亲身考察的经验值得信赖! 得到《卫报》《新科学家》等报刊的力推! 后记 多年以来,我常常对人 们各类糟糕的滥用数字的 行为感到绝望。各种认知 偏差不断涌现,个人直觉 导致错误解读数据,各方 利益掌握着真相的发掘— —这一切都让人变得越来 越沮丧。真是可惜,因为 数字本可以帮助我们更好 地了解世界,还能让世界 变得更加美好。只不过这 样的话,我们就必须小心 谨慎地处理它们,并且, 我们审视文字的时候有多 严格,对待数字的时候也 得有多严格。 现在,是时候将数字摆 回到它该在的位置上了。 自从我在Decorrespondcnt 新闻网站担任数据分析记 者以来,我看到了越来越 多振奋人心的举措——它 们批评滥用数字的行为, 或是质疑数字所起到的作 用。这些举措证明了人们 并非对此无能为力。 就拿国内生产总值来说 。近年来,人们渐渐开始 对GDP自身的局限性以及 该指标在政府制定政策的 过程中的决定性作用表示 不满。因此,各个领域的 科学家和组织均设计出了 一些可以替代或者补充 GDP的其他指标。许多国 家开始衡量其公民幸福程 度,OECD还提出了“美好 生活指数”的概念,衡量一 个国家的环境和劳动力市 场的整体状况等。最近, 荷兰的中央统计局也开始 测量一个“广义的福利概念” ,其中就包括研究目前社 会的福利水平对子孙后代 的影响。 再来说一说民意调查。 荷兰莱顿大学的政治科学 家汤姆·劳文斯已经受够了 那些耸人听闻的、报道民 意调查的新闻。甚至只要 在一项民意调查中出现一 个议会席位的差异,就足 以上新闻。于是,他以“仅 仅一项民意调查并不是真 的民意调查”为由,创建了 一个叫作“民意调查指南”的 网站,收集了荷兰最重要 的几项有关议会席位的民 调结果。劳文斯的做法引 起了许多人的关注,并且 自2016年12月起,NOS所 有提到有关议会席位的民 调新闻,都只引用该网站 的数据。还有那些科学方 面的问题,例如出版偏见 和P值操纵,也正在慢慢地 被解决。2012年以来,经 济学和社会科学领域的研 究人员可以在研究之前, 向美国经济学会注册自己 将要进行的实验。这样一 来,别人就可以清楚地了 解到他们的具体研究计划 。之后,他们也就不能为 了寻找显著的结果而一直 无休无 在很长的一段时间内, 重复研究并不那么受欢迎 ,因为研究人员必须拿出 具有创新住-的研究成果 ,才有可能将研究发表在 期刊上。但近年来你会发 现,这种类型的研究越来 越多地涌现了出来。例如 ,美国开放科学中心就曾 启动了一个面向心理学研 究的可重复性项目,270名 科学家重复了100心理学研 究。随后科学家们就发现 ,这些研究的结果其实并 不那么显著,得出显著结 果的频率也没有那么高。 如今,甚至还出现了专门 发表重复研究成果的科学 期刊。 然而,你可能更想知道 ,既不是政策制定者也不 是科学家的你,如果担忧 数字带来的影响,那你又 能做些什么呢? 改变往往始于家庭,就 从孩子的教育入手吧。你 肯定昕过很多关于cito分数 多么重要的说法,甚至还 听说过小孩在上托儿所的 时候就开始被cito打分了。 但是,也有一些老师和学 校并不会常常给学生们打 分。例如,中学经济学教 师安东南宁加就决定不再 使用数字,而是用文字表 示学生们在校时的表现。 他在接受荷兰Nivoz教育基 金会采访时曾说道,现在 他再也不能躲在一个个数 字后面了。“我现在必须为 学生们提供可靠的反馈意 见。”为选择了初级预备职 业教育基础课程和框架课 程的三年级学生教德语的 马丁·里格纳杜斯也决定, 不再用数字表示学生的成 绩。他在推特上这么回应 我:“这是一种解脱!学生 们学习的动力变得更大了 ,课堂上的气氛也没那么 紧张了(因为没有了考试 的压力)。甚至连他们之 前掌握不好的德语语法, 现在都学得很不错了。”这 些举措还仅仅处于试验的 阶段,不过它们表明,人 们的生活里可以没有数字 。 另一个数字起主导作用 的地方是我们的工作。把 注意力过多地放在设立的 目标、核对清单和关键绩 效指标上面,就可能会影 响工作的质量。同样,这 些方面也是有可能改变的 。一个名为“掌舵之人必须 改变”的行动小组就是个很 好的例子。该行动小组的 成员均是荷兰的全科医生 ,他们已经成功地让将近 四分之三的同行签署了他 们在网上起草的宣言。而 最终,他们在2015年与健 康保险公司达成了一项旨 在减少官僚主义的协议。 在荷兰蜂巢百货的工作场 所,数字也在发挥作用。 百货公司的几家分店就曾 要求员工在顾客结完账后 ,让顾客用1—10来评价他 们的服务质量,最好还要 在上面写清楚是哪位员工 提供的服务。一位蜂巢百 货的员工曾告诉荷兰时事 电视节目Nie。邢。ur,一 些同事为了得到更多好评 ,就让他们的家人给自己 打9—10分的高分。之后, 其他媒体也关注了该评价 系统。荷兰工会联合会 (FNV)的琳达’韦尔默朗 还呼吁所有去蜂巢百货消 费的顾客都给员工打10分 。如此一来,最终的结果 就变成了:顾客仍然可以 提出自己的意见,但是员 工则不再被强制要求让顾 客 精彩页 数字标准化 从远古时代开始,人类就会计数了。现存最早的书面记录里就包含了表示数字的符号。在乌鲁克古城(今属伊拉克),有一块公元前3400—前3000年的泥板,上面写着“29086单位大麦37个月库辛”。这句话最有可能的解读是:“在37个月间,总共收到29086单位的大麦。由库辛签核。” 历史学家尤瓦尔·赫拉利这样写道:“很遗憾,人类史上的第一个文本不但不是哲学巧思,不是诗歌,不是传奇,不是法律,甚至也不是对王室歌功颂德,而是无聊至极的财经文件,记录各种税务、债务以及财产的所有权。”这点当然很重要,因为在一个社会的发展历程中,数字起着尤为关键的作用。 在原始社会时期,人类可以在脑子里记下一切有用的信息,比如哪儿有食肉野兽出没,哪种果子有毒,哪个人值得信任。到了农业社会时期,一小块地区内的农民依旧可以将生活需要的信息记在大脑中。但从农业革命起,人们开始大规模地合作,组成城市,甚至组建国家。社会的经济模式逐渐变得复杂;货币交易的出现,取代了之前的以物易物,而后慢慢扩大,形成了一个越来越错综复杂的经济关系网。例如,你欠了甲的钱,但你又是乙的债主,同时你还必须向丙支付租金。于是,人类大脑渐渐不够用了,再也不能把所有信息都记在脑子里。 对于一个要向数千居民征税的城邦而言,这点尤为重要。官员需要通过书面记录来登记和管理收到的款项名目及时间。先写下口头协议,接着将其合法化,之后记录下谁做了何事,最后再上交行政部门处理。这样,人类就再也不需要通过大脑记录信息了。跟此前的库辛和大麦的例子一样,大部分被书面记录下来的信息里都包含了数字。 在数字最初发展的过程中,人类不单单记录数字,还得记录数字表示的内容。让我们再回过头去看一下那块古老的泥板上的字:29086份。在当时的情况下,让库辛记录下这些的人不仅要确认数字是“29086”,还得充分认识“份”这个单位概念。 在历史上绝大部分的时间里,测量单位的标准都十分本地化。每个地方都使用对当地来说最方便的单位。比如,法国就曾用“比雪雷”和“乔纳利尔”作为土地计量单位。比雪雷指农民播种这块土地需要的谷物数量,乔纳利尔指一台葡萄收割机一天内可工作的土地面积(在现代语言中,我们依旧可以找到那些古老的测量单位的痕迹,比如一箭之遥、步步为营等)。就算两个地区使用相同的单位,单位背后的含义也可能千差万别。17世纪时,荷兰格罗宁根省的埃津厄使用“鲁德”作为长度单位,1 鲁德约合现在的5米。而在距离其70千米的贝灵沃尔德,他们的1鲁德还不及埃津厄1鲁德的一半。据估计,仅仅在18世纪的法国就有25万种不同的长度和重量单位。 正如两个人不说同一种语言就不能交流,若双方采用不同的数字用法,那么就无法达成共识。1999年的一件事足以证明,没有一门通用的数字语言,后果会有多么严重。那一年,美国“火星气候探测者”号卫星本应飞抵火星,并绕其飞行,但它却在1999年9月23日从雷达上消失了,并且永远无法找回。这件事是如何发生的呢?原来,要把探测卫星发射至火星,需要两台电脑合作完成。其中一台电脑使用的是英制单位里的“磅力/秒”进行计算,而另一台却采用国际通用的公制单位“牛顿/秒”。这次沟通上的失误,导致探测器的飞行轨道比预期低了170千米,最终很可能是火星灼热的大气层焚毁了卫星。幸运的是,如今这种问题只是个别案例了,因为现在世界上几乎每一个国家都采用国际单位制。但这样的变革在当年肯定少不了一番斗争,有的甚至需要革命。法国大革命(1789—1799年)之后,革命党人决定废除所有地方计量单位。他们提出公制单位的设想,而这恰恰和当时科学家们的想法不谋而合,并且,这样还能让他们更好地管理国家。 比方说,革命党人想按土地面积征税,但国内每个人都有一套自己的距离单位,那税该怎么征呢?这场变革持续了一段时间,最终成功地将公制单位的概念(后来的国际单位制),从法国推广到了世界上绝大多数国家。现在只有3个国家——美国、利比亚和缅甸——仍旧使用英制单位,即质量单位为“磅”,长度单位为“英里”,等等。 这是人类在南丁格尔的思想基础上取得的第一个进展:将数字标准化。换句话说,我们在如何衡量一个特定的概念上达成了识。“米”和“千克”只是一个开端。19世纪70年代,人们对于数字信息的需求量变得极大。这是因为在19世纪,大量农村人口迁徙到了城市,各类问题变得集中且明显:贫困、犯罪率和疫病。这些问题都是从哪儿来的?我们该如何解决它们?不管是政府人员还是平民百姓,越来越多的人都开始思考答案。 P7-10 |