网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 错觉(AI如何通过数据挖掘误导我们)
分类
作者 (美)加里·史密斯
出版社 中信出版社
下载
简介
作者简介
加里·史密斯(Gary Smith),美国波莫纳学院经济学教授,统计学家、数据专家、经济学作家。
获得了耶鲁大学经济学博士学位,并在耶鲁大学任教七年。
曾两次获得教学成果奖,出版了十二本书,包括《标准偏差》《超越比赛》《货币机器》等。
书评(媒体评论)
数据专业人士和消费者可以从作者有趣而易懂的
书中受益,他证明了更多的计算能力和数据并不意味
着更多的智能。我们需要对人类的智力有更多的信心
,人类有常识和对环境的鉴赏能力,而电脑都没有。
——富国银行数据科学家和软件工程师 埃里克
·英博格
此书非常精彩,作者从计算机的角度出发,对人
工智能、大数据和机器学习在我们日常生活中愈发盛
行的现状做出了强烈批判。
——马里兰大学法学教授 弗兰克·帕斯奎尔
作者对“理论先于数据”这一科学方法进行了有
力的辩护,清晰阐述了人工智能和大数据的局限所在

——好莱坞环球影城首席财务官 克里斯·尼尔

你不需要线性代数或多元微积分学位,就能理解
作者对大数据局限性的严肃审视。
——摩根大通前任董事总经理 安德鲁·斯洛夫

作者解释了为什么人工智能没有达到预期的效果
。他使用了大量真实世界的例子来说明不让人类参与
决策过程的风险。
——凯鹏华盈台伙人 卡尔·J.迈耶
大数据越来越多地被用来做重大决策,这是一件
好事,但我们也要意识到事情可能会出错,正如作者
在这本有趣的新书中解释的那样。
——哥伦比亚大学应用统计中心主任 安德鲁·
格尔曼
后记
我们生活在一个不可思议的历史时期。计算机革命比
工业革命给人们的生活带来了更加翻天覆地的变化。我们
可以使用计算机来实现过去无法完成的目标,计算机也为
我们打开了很多崭新的大门。
我很迷计算机,你可能也有同感。但是,我们不应该
让自己对计算机的喜爱,蒙蔽了对它们的局限的认知。没
错,计算机储存的事实数据比我们多,记忆力比我们好,
计算速度比我们快,还不会像我们那样疲倦。
机器人完成重复单调任务的能力远超人类,如拧螺栓
、播种、搜索法律文件、接受银行存款和分配现金。计算
机能识别物体、画画和驾车。你肯定还可以想出计算机其
他让人惊叹的,甚至是超人类的壮举。
因为计算机能够极其出色地完成任务,所以很容易让
人认为它们肯定是高度智能化的。然而,在完成特定任务
方面大有用处与拥有通用智能是两码事。通用智能可以将
从一次任务中吸取到的教训和习得的技能,运用于更加复
杂或完全不同的任务。有了真正的智能,技能便可信手拈
来。
计算机非常强大,而且越来越完善,但是计算机算法
的设计,仍然是完成定义明确的琐事所需要的、适用范围
非常狭窄的能力,而不是像通用智能那样可以通过评估事
情现状、起因和后果,来处理不熟悉的情境。人类能够将
通用知识运用到特定情境中,再借助特定情境来改善自己
的通用知识。如今的计算机还无法做到这一点。
人工智能和人脑的真正智能完全不是一码事。计算机
并不知道词语的意思,因为它无法像我们一样感知世界。
它不知道真实世界是什么,缺少人类在现实生活中积累所
得的常识或智慧;无法构想出有说服力的理论学说,也无
法做出归纳推理或长期规划;没有情绪、感觉和灵感,这
些都是创作扣人心弦的诗歌、小说或电影剧本所必不可少
的。
或许有一天,计算机会拥有类似人类的真正智能,但
这并不是因为计算机内存更大或处理速度更快。这不是量
变的问题,而是质变产生的不同方式——找到方法让计算
机获取通用智能,使其可以在不熟悉的情境中灵活运用多
种方式。
我想澄清一点,这不是在批评计算机科学家。他们都
才智过人,也付出了大量辛勤汗水。计算机科学家的工作
难度极大,并且大有裨益。还有更多需要完成的工作,难
上加难。
模仿人脑是一项艰巨的任务,不能确保一定会成功。
不过,还是有一些传奇式的例外,如美国电话电报公司的
贝尔实验室、洛克希德·马丁公司的“臭鼬工厂”和施乐
公司的帕克研究中心,但是很少有企业愿意支持与脑力有
关、短期无回报的研究。一些有用且能立即获利的项目对
它们来说更具吸引力。
我不知道,开发出可与人类相媲美的通用智能的计算
机需要多长时间。我猜测,至少也需要几十年。可以肯定
的是,那些声称计算机已经拥有通用智能的说法都是错的
。我也不相信那些人给出的特定日期,如2029年。同时,
请保持对牵强附会的科学小说场景的怀疑态度,也小心提
防夸大宣传人工智能产品的企业。
挖掘大数据风行一时,但数据挖掘是人为,而非智能
。当统计模型分析大量可能的解释变量时,可能关系的数
量就会暴增。有1000种可能解释变量的多元回归模型,10
个输人变量存在近1万亿个万亿的可能组合。若有1万个可
能解释变量,则10个输入变量存在超过10亿万亿个万亿的
可能组合。难以想象,若有100万个可能解释变量,会存在
多少种可能组合。
如果把很多可能变量都考虑在内,即便所有都只是随
机噪声,部分组合也一定与我们试图预测的对象高度相关
,如癌症、信用风险和岗位适用性。偶然会出现真正的“
知识发现”,但是,考虑的解释变量越多,所发现关系只
是偶然出现且转瞬即逝的可能性就越大。
统计学证据不足以辨别真知灼见和虚假信息。只有逻
辑、智慧和常识才能对其加以区分。计算机无法评估事物
是真正相关还是偶然相关,因为计算机不理解数据的意义
。数字不过是数字而已。计算机并没有区分好坏数据所需
的人类判断力,没有分辨有理有据的和虚假伪造的统计学
模型所需的人类智能。如今的计算机能通过图灵测试,却
无法通过史密斯测试。如果所发现的模式被隐藏在黑匣子
里,让模型难以理解,就会使这种情况恶化。无人知晓为
什么计算机算法决定要买人这只股票、拒绝这名求职者、
给病患开这种药、拒绝这名囚犯的假释请求和轰炸这座建
筑。
在大数据时代,真正的危险不是计算机比我们更聪明
,而是我们自己这么认为,从而信任计算机为我们做出重
要决定。我们不应该认为计算机就是万无一失的、数据挖
掘都是“知识发现”,以及黑匣子也应该被信赖。我们要
相信自己能判断统计学模型是否合理,有无可能派上用场
,抑或它只是偶然出现而已,转瞬即逝,毫无用处。
人类推理与人工智能有天壤之别,这也是为什么如今
更显人类推理能力的可贵之处。
目录
引言
第1章 智能还是服从
井字游戏
国际跳棋
第2章 盲从
思考之源和思维之火
计算机是超人吗?
将时间考虑在内
识别像素与产生情绪
批判性思维
图灵测试
第3章 无语境的符号
翻译软件与理解语言
威诺格拉德模式挑战赛
计算机能阅读吗?
计算机能写作吗?
在语境中理解事物
猫与花瓶
第4章 坏数据
自我选择偏好
相关系数并非因果关系
时间的力量
幸存者偏差
假数据
识别“坏数据”
第5章 随机性模式
数据挖掘
黑匣子
大数据、大电脑、大麻烦
利益冲突
天生就会被骗
为模型所惑
第6章 如果你拷问数据的时间足够长
孟德尔
得州神枪手谬误
数据挖掘
拷问数据
倒摄回忆
金钱启动效应
寻找就会发现
微笑曲线
从卓越降为优秀
攻击性和吸引力
达特茅斯三文鱼研究
骗子,骗子
第7章 无所不包的“厨房水槽法”
预测总统大选
非线性模型
第8章 新瓶装旧酒
逐步回归法
岭回归法
数据规约
神经网络算法
被数学蒙蔽双眼
第9章 先吃两片阿司匹林
明早再给我打电话
我要再喝一杯咖啡
远程治疗
癌症群
最有理有据的疗法失效了
数据挖掘
糟糠过多,精粹不足
第10章 完胜股市(上)
噪声
滑稽的理论
技术分析
抛硬币
《每周华尔街》的十项技术指标
推特,推特
技术大师
为乐趣和盈利投资的黑匣子
第11章 完胜股市(下)
股市与天气
预留方案
真正的数据挖掘
趋同交易
高频交易
底线
第12章 我们都在监视着你
妊娠预测指标
谷歌流感
机器人测试仪
就业申请
招聘广告
贷款申请
汽车保险
社会信用评分
黑匣子式歧视
不合理的搜查
看看你的手环
你需要整容吗?
摆弄系统
共同毁灭原则
结语
参考文献
精彩页
《危险边缘》是一档热门的电视智力竞赛节目,有多个版本,开播至今已有50多年。该节目的比赛内容为百科知识问答,其巧妙之处在于:参赛者要根据以答案形式提供的各种线索,给出与这个答案相对应的问题。例如,线索是“美国第16任总统”,正确的问题就是:“谁是亚伯拉罕·林肯?”每期节目均有三名参赛者,以摁按钮的方式口头抢答(除了最后一轮“终极危险边缘”以外,在其他环节三名参赛者均有30秒时间书写作答)。
从很多方面来看,这档节目都适合计算机参与,因为计算机能准确无误地存储和检索大量信息。在《危险边缘》青少年组比赛中,一名男孩因将“谁是安尼·弗兰克”误写成“谁是安妮·弗兰克”而痛失冠军。而计算机就不会犯这样的错误。
另外,线索有时通俗易懂,有时却晦涩难解。例如,线索是“把它打进去,你就输了比赛”,对只是资料库的计算机来说,很难得出以下正确问题:“什么是(台球)母球?”
还有一个难解的线索是:“翻译时,这支大联盟棒球队的名字会重复一次。”正确问题为:“什么是洛杉矶天使队?”(Whatis the Los Angeles angels?)
2005年,15名IBM(国际商用机器公司)的工程师合作设计了一款能与《危险边缘》最佳玩家同台对擂的计算机,取名“沃森”,以纪念IBM的首任CEO(首席执行官)托马斯·J.沃森。沃森在1914年接手IBM时,IBM还只是一家仅有1300名员工、年收入不足500万美元的小公司,到了1956年他去世的时候,IBM已经发展成为一家有7.25万名员工、年收入9亿美元的公司。
“沃森”程序存储了相当于2亿页纸的内容,每秒可处理相当于100万本书的信息。除了拥有海量内存和高速处理能力外,“沃森”还能理解自然语言,使用合成语音进行交流。与罗列相关文档或网站的搜索引擎不同,“沃森”可按照程序并根据线索得出具体答案。
“沃森”运用数百个软件程序,先识别线索中的关键字和词组,再与海量数据库中的关键字和词组相匹配,最后得出合理答案。按照编好的程序,如果线索是某个名字(如亚伯拉罕·林肯),“沃森”就会写出以“谁是……”开头的问题;如果线索为某一事件,它就会写出以“什么是……”开头的问题。单个软件程序与某个答案的一致性越高,“沃森”就越能确定此为正确答案。
该程序能轻而易举地得出与“美国第16任总统”这么直白的线索对应的问题,但要处理有多重含义的词语时就有些困难了,比如,线索是“把它打进去,你就输了比赛”之类的问题。但是,“沃森”不会感到紧张,也绝不会遗忘。
2008年,“沃森”做好了参加《危险边缘》的准备,但还有些问题需要协商。IBM团队担心该节目的工作人员会使用包含双关语和具有双重含义的线索,给“沃森”下圈套。这一担心也恰好揭示了人类与计算机的巨大差异。人类可以根据语境理解词义,所以能理解双关语、笑话、谜语和讽刺批评。而目前的计算机,充其量只能检查出数据库中是否含有双关语、笑话、谜语或讽刺批评。
对此,节目工作人员同意随机抽取以往编写但未使用的线索。而节目工作人员也担心,如果“沃森”一得到答案就可以发出电子信号,会比必须通过摁按钮来答题的参赛者更有优势。对此,IBM团队同意给“沃森”装根电子手指来摁按钮,但它还是比人类快,这也让“沃森”占据决定性优势。摁按钮快算是聪明的体现吗?如果“沃森”的反应速度降为与人类的一致,比赛结果又会如何?
P3-5
导语
本书另辟蹊径,从反面探讨了AI研究中存在的一系列问题。
开创性地提出了“得州神枪手谬误”和“史密斯测试”等来批判那些先有数据后有理论和模型的科学研究方式——数据挖掘。
如今大数据、坏数据、假数据充斥着我们的生活,数据挖掘以相关关系取代了因果关系,AI到底是真的有智能还是只在服从?本书为你解答。
序言
2008年的民主党总统候选人提名,本应成为希拉里·
克林顿的加冕典礼的序幕。作为知名度最高的候选人,希
拉里得到了党派内部的最大支持,她同时还拥有最丰富的
财政资源。
阿尔·戈尔和约翰·克里这两位大人物虽然也考虑参
选,但却对击败核心人物希拉里不抱希望。其他不为人熟
知的参选人的机会就更渺茫了:俄亥俄州的美国众议院议
员丹尼斯·库西尼奇、新墨西哥州州长比尔·理查森,还
有美国参议员约瑟夫·拜登(特拉华州)、约翰·爱德华
兹(北卡罗来纳州)、克里斯·多德(康涅狄格州)、迈
克·格拉韦尔(阿拉斯加州)和贝拉克·奥巴马(伊利诺
伊州)等。
不过,本次提名并没有按照写好的剧本上演。黑人参
议员奥巴马虽名不见经传,但却点燃了选民的热情。他筹
集了足够多的资金,还说服奥普拉·温弗瑞力挺他参选。
在艾奥瓦州预选中,奥巴马以八个百分点的优势击败了希
拉里,由此拉开了大选序幕。
奥巴马先是赢得了民主党提名,继而又打败了共和党
人约翰·麦凯恩而最终成功当选总统。究其原因,奥巴马
竞选主要不是靠口才和魅力,而是靠大数据。
奥巴马竞选团队设法将每名潜在选民及其数百条个人
信息录入数据库,包括年龄、性别、婚姻状况、种族、宗
教、住址、职业、收入、车辆登记、房屋价值、捐赠历史
、杂志订阅、休闲活动、脸书好友,以及所能找到的任何
相关情况。
这些数据来自公共数据库、来往电子邮件或竞选工作
者的上门询问,还有从私人数据供应商处购买的。而其最
主要的来源是每周对数千名潜在选民进行的电话调查访问
,通过这种方式不仅能搜集到个人信息,还可摸清每名选
民投票的可能性——是否会给奥巴马投票。
从统计学角度来说,选民投票的可能性与其个人特征
相关,还可以根据这些个人特征推测出其他潜在选民。奥
巴马竞选所用的计算机软件能预测数据库中每个人投票以
及给奥巴马投票的可能性。
这种数据驱动的模型使该竞选团队可通过电子邮件、
邮寄信件、上门拜访,以及呼吁捐赠和投票的电视广告来
进行微目标锁定(microtarget)。如果计算机程序预测狩
猎许可证持有者反对枪支管制立法,那么对这类人的枪支
管制宣传就会减少。该软件还推荐了可确保捐赠和投票的
其他手段。
2008年1月,奥巴马在这关键的一个月内筹到了3 600
万美元,创下了政治家筹款纪录的新高,约为希拉里所筹
资金的三倍。获得提名后,奥巴马的筹款额继续上涨。
2008年整个竞选活动期间,奥巴马共筹集了7.8亿美元,是
对手共和党人约翰·麦凯恩所筹资金的两倍多。麦凯恩根
本没有胜算,也确实没能获胜,他只得了173票,而奥巴马
却获得了365票。
八年后,希拉里·克林顿再次参加总统大选,决意运
用大数据为自己加持。
但这一次,大数据让她大失所望。
希拉里的竞选团队共聘请了60名数学家和统计学家,
其中几位曾效力于奥巴马竞选团队。为纪念19世纪的女数
学家阿达.洛芙菜斯,他们将自主开发的软件程序称作“
阿达”。希拉里要是成为第一位美国女总统,就可以透露
“阿达”是她的幕后功臣。故事多么精彩!
他们把“阿达”装在自己的服务器上,只有几个人拥
有访问权限。有些人知道这个软件的存在,但不知道它的
运作方式,而大多数人对此一无所知。
2016年9月16日,距大选还有7周,埃里克·希格尔在
《科学美国人》杂志上发表了一篇题为“希拉里竞选团队
如何(几乎肯定)运用大数据”[How Hillary's
Campaign Is (Almost Certainly)Using Big Data]的
文章。他指出,“有证据表明,希拉里正在采用可高度精
准锁定目标的技术来竞选,奥巴马就曾靠此获胜”。竞选
活动开展一年半后,还有观察人士对希拉里的大数据运用
继续做出种种推测。这说明“阿达”的保密工作做得非常
到位。
希拉里竞选团队对“阿达”的运用守口如瓶,这可能
是因为他们不想让希拉里的对手有所察觉,也可能是因为
不想加深团队机械行事、谨小慎微和照本宣科的刻板印象
,他们毫无伯尼。桑德斯和唐纳德·特朗普竞选团队那样
的豪情壮志。
……
2016年竞选期间,比尔·克林顿看到了伯尼·桑德斯
和唐纳德·特朗普呼吁工薪阶层选民时所激发的热情,于
是建议希拉里以“笨蛋,问题在经济”作为主要竞选方针
,尤其在萧条的中西部地区,包括俄亥俄州、宾夕法尼亚
州、密歇根州和威斯康星州形成“蓝墙”(Blue Wall)。
而“阿达”理所当然地认为,这道由“蓝墙”组成的防火
墙会是希拉里战胜特朗普的基础。
“阿达”的另一个盲点是,经验丰富的政治家知道电
视广告虽然可行,但最能打动乡村地区选民的方法,就是
候选人安排时间出席市政厅会议和县博览会,以表示对选
民的关心。而靠数据驱动的“阿达”着实没有考虑这一点
。竞选活动支持率出现下降时,显然应该指派一名竞选专
员深入乡村地区调查,而且要找能与农民打交道的人。这
名专员还得是来自布鲁克林,而且不要出身背景太好的。
内容推荐
在人工智能异常火热的今天,很多人认为我们生活在一个不可思议的历史时期,人工智能和大数据可能比工业革命更能改变人的一生。然而这种说法未免言过其实,我们的生活确实会有所改变,但可能并非是朝好的方面发展。我们过于武断地认为计算机搜索和处理堆积如山的数据时不会出差错,但计算机只是擅长收集、储存和搜索数据,它们没有常识或智慧,不知道数字和词语的意思,无法评估数据库中内容的相关性和有效性,它们没有区分真数据、假数据和坏数据所需的人类判断力,没有分辨有理有据和虚假伪造的统计学模型所需的人类智能。
计算机挖掘大数据风行一时,但数据挖掘是人为而非智能,也是非常艰巨、危险的人工智能形式。数据挖掘先是通过大量的数据走势、相关关系来发现让我们内心愉悦却无实践价值的模型,然后创造理论来解释这些模型。作者通过“史密斯测试”和“得州神枪手谬误”等实例说明,如果你挖掘和拷问数据的时间够长、数量够大,你总能得到自己想要的结果,然而这是相关关系却并不是因果关系,只是自我选择偏好,并没有理论基础也没有实用价值。
在人工智能时代,我们对计算机的热爱不应该掩盖我们对其局限性的思考,真正的危险不是计算机比我们更聪明,而是我们认为计算机具有人类的智慧和常识,数据挖掘就是“知识发现”,从而信任计算机为我们做出重要决定。更多的计算能力和更多的数据并不意味着更多的智能,我们需要对人类的智慧有更多的信心。
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/25 13:39:52