网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 计算社会学(数据时代的社会研究)
分类 人文社科-社会科学-社会学
作者 (美)马修·萨尔加尼克
出版社 中信出版社
下载
简介
内容推荐
我们已经见证了社交媒体、智能手机以及其他科技奇迹的诞生与进化,这些科技工具让我们能够以前所未见的规模和深度采集并处理有关人类行为的数据,从而为研究人类社会提供了一个全新的路径。这本书是一部里程碑式的作品,它将彻底改变下一代社会科学家和数据科学家探索世界的方式。
大数据的10个共同特征是什么?
如何通过数据预测美国总统大选的结果?
如何在短时间内对100万个星系进行分类?
大规模数据采集面临着怎样的道德伦理困境?
科技公司是否在监视我们的行为,数字时代是不是将我们带进了“全景监狱”呢?
在计算社会学这一新兴领域,作者阐述了数字革命如何扭转了社会科学家和数据科学家观察行为、提出问题、开展实验和进行大规模协作的方式,详细描述了大批真实的案例,并且划定了面临伦理挑战时需要遵循的4项原则。
这本书用全新的数据模式解锁了社会学。对社会科学家来说,它是一本跨界指南之书;对数据科学家来说,它是一本素养提升之作。
作者简介
[美] 马修·萨尔加尼克(Matthew J.Salganik),普林斯顿大学社会学教授,同时任职于该校的信息技术政策中心、数据与机器学习中心等。《科学》杂志评价他是“纯然的计算社会学家”。他的研究方向是社会网络、计算社会学。他的研究曾被微软、脸谱网和谷歌资助,并被《纽约时报》《华尔街日报》《经济学人》《纽约客》等主流媒体报道,美国公共广播电台还专题报道过他的研究成果。
目录
前言
第1章 简介
1.1 一处墨迹
1.2 欢迎来到数字时代
1.3 研究设计
1.4 本书的主题
1.5 本书梗概
第2章 观察行为
2.1 简介
2.2 大数据
2.3 大数据的10个共同特征
2.3.1 海量性
2.3.2 持续性
2.3.3 不反应性
2.3.4 不完整性
2.3.5 难以获取
2.3.6 不具代表性
2.3.7 漂移
2.3.8 算法干扰
2.3.9 脏数据
2.3.10 敏感性
2.4 研究策略
2.4.1 计数
2.4.2 预测和临近预测
2.4.3 近似实验
2.5 结论
第3章 提问
3.1 简介
3.2 提问与观察
3.3 调查误差总框架
3.3.1 代表性
3.3.2 测量
3.3.3 成本
3.4 向谁提问
3.5 提问的新方法
3.5.1 生态瞬时评估法
3.5.2 维基调查
3.5.3 游戏化
3.6 与大数据资源相结合的调查
3.6.1 丰富型提问
3.6.2 扩充型提问
3.7 结论
第4章 开展实验
4.1 简介
4.2 什么是实验
4.3 实验的两个维度:实验室–实地以及模拟–数字
4.4 超越简单实验
4.4.1 效度
4.4.2 处理效应的异质性
4.4.3 原理
4.5 使实验成为现实
4.5.1 利用现有环境开展实验
4.5.2 创建自己的实验
4.5.3 创建自己的产品
4.5.4 与有能力的组织合作
4.6 建议
4.6.1 创造零可变成本数据
4.6.2 将道德伦理融入你的设计:替代、改进和减少
4.7 结论
第5章 进行大规模协作
5.1 简介
5.2 人本计算
5.2.1 星系动物园
5.2.2 政治宣言的公众编码
5.2.3 结论
5.3 公开征集
5.3.1 网飞奖
5.3.2 蛋白质折叠游戏
5.3.3 公众专利评审
5.3.4 结论
5.4 分布式数据采集
5.4.1 观鸟数据库
5.4.2 照片城
5.4.3 结论
5.5 设计你自己的大规模协作项目
5.5.1 激励参与者
5.5.2 利用异质性
5.5.3 集中注意力
5.5.4 允许惊喜
5.5.5 合乎道德伦理
5.5.6 最后的设计建议
5.6 结论
第6章 道德伦理
6.1 简介
6.2 三个事例
6.2.1 情绪感染项目
6.2.2 “3T”项目
6.2.3 “Encore”项目
6.3 数字时代的不同
6.4 四项原则
6.4.1 对人的尊重原则
6.4.2 有利化原则
6.4.3 公正原则
6.4.4 对法律和公共利益的尊重原则
6.5 两种道德框架
6.6 困难面
6.6.1 知情同意
6.6.2 理解与管理信息化风险
6.6.3 隐私权
6.6.4 面对不确定性做出决策
6.7 实用技巧
6.7.1 机构审查委员会是底线,不是上线
6.7.2 换位思考
6.7.3 将研究伦理视作连续的而非离散的过程
6.8 结论
历史附录
第7章 未来
7.1 展望
7.2 未来主题
7.2.1 现成品与定制物之间的融合
7.2.2 以参与者为中心的数据采集
7.2.3 研究设计中的道德伦理
7.3 回到开始
致谢
参考文献
序言
这本书源于2005年在哥伦比亚大学一个地下室中发生
的事情。那时,我还是一名研究生,正在为最终的毕业论
文做一项在线实验。有关这项实验的学术部分我将在第4章
进行介绍,但现在,我将告诉你们一件我的毕业论文或其
他任何论文都未涉及的事情。这件事从根本上改变了我对
研究的看法。一天早晨,当我来到位于地下室的工作室时
,我发现一夜之间竟有约100个来自巴西的人参与了我的实
验。这一简单的经历对我产生了深远的影响。当时,我的
几个朋友正醉心于传统的实验室实验。我知道他们必须很
费心地有偿召集并指导人们来参与实验,如果一天能有10
个人完成实验,就算是不错的进展了。但对我的在线实验
来说,我在睡觉的同时,就有100个人参与了实验。也许,
一边睡觉一边做研究听起来美好得令人难以置信,但这是
事实。技术的变化,尤其是技术从模拟时代到数字时代的
转变,意味着我们可以用新的方式搜集和分析社会数据。
这本书就是关于如何利用这些新方式开展社会研究的。
这本书是写给那些“想研究更多数据科学的社会科学
家”和“想研究更多社会科学的数据科学家”以及对这两
个领域的结合感兴趣的人的。因此,这本书的目标受众自
然就不仅限于学生和教授了。尽管我目前在普林斯顿大学
任职,但之前也在政府部门(美国人口调查局和技术产业
领域的微软研究院)工作过,因此我知道,在大学之外同
样存在着很多令人兴奋的研究。因此,只要你觉得自己正
在做的是社会研究,那么无论在何处就职或使用何种技术
,你都可以参阅此书。
你可能已经注意到了,这本书的语言风格和许多其他
的学术著作稍有不同。这其实是我特意做的一个改变。这
本书的部分内容源于我从2007年起在普林斯顿大学的社会
学系带领的一个“计算社会学”(Computational Social
Science)研究生研讨班,因此我希望它能反映这个研讨班
的一些活力和激情。具体而言,我希望这本书能够具备以
下三个特点:有帮助的、面向未来的以及乐观的。
有帮助的:我的目标是写一本对你们有帮助的书。因
此,我将以坦诚的态度、非正式的写作风格,通过实例阐
述我的观点。我最想传达的是一种特定的思考社会研究的
方式,而经验告诉我,传达这一思考方式的最好的方法就
是采取非正式的写作风格并列举大量例子。此外,在本书
的参考文献中,有一个部分叫“拓展阅读”,它旨在帮你
过渡到有关我所介绍的多个主题的更加详细、更加专业的
内容上。最后,我希望此书能对你们自己开展研究以及评
估别人的研究有所帮助。
面向未来的:我希望这本书能帮助你利用现有的以及
未来将出现的数字系统开展社会研究。我是从2004年开始
做这类研究的,这期间数字系统发生了诸多变化,我坚信
在你们的职业生涯中,你们也会感受到数字系统的许多变
化。因此,要想让这本书“以不变应万变”,就要做到“
抽象”。例如,这本书不会教你如何使用现有的推特应用
程序界面(Twitter API),相反,它会教你如何受益于
大数据资源(第2章)。这本书不会详细告诉你如何利用亚
马逊土耳其机器人(Amazon Mechanical Turk,以下简称
机器人MTurk)开展实验步骤,相反,它将教你如何设计和
解读依赖于数字时代基础设施的实验(第4章)。通过采用
这种抽象化的手法,我希望这本书能够成为一本主题适时
、经得起时间考验的书。
乐观的:本书涉及两个群体——社会科学家和数据科
学家,他们有着截然不同的背景和兴趣。除了书中将要介
绍的科学方面的差异以外,我还发现,这两个群体看待事
物的态度也是不同的。数据科学家一般而言是满怀希望的
,而社会科学家一般而言是更具批判性的。也就是说,同
样是半杯水,数据科学家看到的是还有半杯水,而社会科
学家看到的则是杯子有一半已经空了。在本书中,我将采
取数据科学家的乐观态度。因此,在描述相关实例时,我
将告诉你们在我看来这些例子的可取之处。当然,鉴于没
有研究是完美的,我也会指出它们的问题所在,但我会尽
力用乐观积极的方式指出。我不会为批判而批判,我的批
判是为了能让你们设计出更好的研究。
我们仍处于数字时代社会研究的早期阶段,但我已经
发现了一些普遍存在的误解,它们的普遍程度让我觉得有
必要在前言中对其进行说明。就数据科学家而言,我发现
他们有两个常见的误解。第一个是认为数据越多越有利于
解决问题。但对社会研究来说,我的经验告诉我并不是这
样的。事实上,对社会研究来说,好的数据似乎要比更多
的数据更有帮助。第二个是数据科学家通常认为社会科学
只不过是一堆围绕常识的花言巧语罢了。当然,作为一名
社会科学家,更确切地说是社会学家,我不同意这样的观
点。聪明的人长期以来一直在努力理解人类的行为,因此
忽视这一努力所取得的成果似乎是不明智的。我希望通过
这本书,以一种易于理解的方式和你们分享其中的一些成
果。
就社会科学家而言,我发现他们也有两个常见的误解
。第一个是有些社会科学家会因为少数不真实的数据而彻
底否定使用数字时代的工具开展社会研究这一观念。如果
你正在读这本书,那你可能已经读过许多平庸地或错误地
(或两种方式都有)使用社交媒体数据的论文。我也读过
。但是如果因为这些论文就得出结论,说数字时代的社会
研究都是不好的,这将是一个严重的错误。事实上,你可
能也读过许多平庸地或错误地使用调查数据的论文,但你
并没有因此而否定所有使用调查数据的论文。这是因为你
知道,也有使用调查数据并且做得很不错的研究。而我将
通过这本书告诉你们,使用数字时代的工具并且做得很不
错的研究也是有的。
我所发现的社会科学家的第二个常见误解是容易将现
在和未来混淆。当我们对数字时代的社会研究,即我在本
书中将探讨的研究,进行评估时,思考以下两个截然不同
的问题至关重要:“这类研究现在做得怎么样”以及“这
类研究将来会做得怎么样”。研究人员会被训练来回答第
一个问题,但对这本书而言,我认为更重要的是第二个问
题。也就是说,尽管数字时代的社会研究尚未做出巨大的
、改变范式的贡献,但数字时代社会研究的进步速度快得
惊人。因此,相比于其目前的发展水平,它的变化速度更
让我感到兴奋不已。
尽管上一段似乎是在告诉你们,数字时代的社会研究
可能会在未来的某个时间变得相当成功,但我的目标并不
是向你们推销任何特定类型的研究。我个人并未持有推特
(Twitter)、脸谱网(Facebook)、谷歌(Google)、
微软(Microsoft)、苹果(Apple)或其他任何科技公司
的股份。但是,为了做到充分披露,我应该告诉你们我曾
在微软、谷歌和脸谱网工作过或是接受过其研究经费赞助
。因此,在整本书中,我的目标是让自己做一个可信的叙
述者,告诉你们所有可能的令人兴奋不已的新事物,同时
引导你们避开一些我曾看到有人掉进去的陷阱(有的我自
己也曾掉进去过)。
社会科学和数据科学的交叉学科有时会被称为“计算
社会学”。有些人认为这是一个技术领域,但这本书并不
是传统意义上的技术图书。例如,这本书的正文中并没有
公式。之所以选择这样的方式,是因为我想呈现对数字时
代社会研究的一个全面的看法,其中包括大数据资源、调
查、实验、大规模协作和道德伦理。但事实证明,涵盖所
有这些主题并提供每个主题中详细的技术细节是不可能的
。相反,我会在本书参考文献中的“拓展阅读”里推荐更
多的技术资料。换句话说,这本书不是为了教你如何做某
种特定的计算,而是为了改变你对社会研究的思考方式而
写的。
如何在教学中使用这本书?正如前面所述,本书的部
分内容来自我从2007年开始在普林斯顿大学带领的一个“
计算社会学”研究生研讨班。你们可能想用这本书进行教
学,所以我觉得有必要解释一下我是如何将源于课堂的素
材写成这本书的,以及我想象的这本书在其他课堂中的使
用方式。
有几年时间,我上课是没有指定教材的,我只是给学
生指定一些文章。虽然他们能够从这些文章中学到东西,
但只学习这些文章还不足以让他们发生我所期待的观念转
变。所以我会用课堂大部分的时间讲述这些文章的背景,
讲述应该采取怎样的视角以及给予他们建议,进而帮助学
生获得更全面的认识。在这本书中,我试图以不涉及社会
科学或数据科学专业知识的方式记录上述所有的背景、视
角和建议。
对于为期一学期的课程,我建议将这本书与其他各种
阅读材料配套使用。例如,课程可能会花两周时间来做实
验,这时你可以使用第4章的内容,同时选取诸如以下主题
的阅读材料:预处理信息在实验设计和分析中的作用;在
公司大规模的A/B测试过程中所浮现出来的统计和计算问
题;实验设计,尤其是原理方面,以及与通过机器人MTurk
这样的在线劳动力市场招募实验参与者相关的实践、科学
和伦理方面的问题。你也可结合编程方面的阅读材料或活
动。至于如何从这些材料中选出合适的配套材料,就取决
于你的学生(是本科、研究生还是博士)以及他们的背景
和目标。
在一个为期一学期的课程中,你也可以每周给学生分
配一些任务。这本书的每一章都会涉及各种各样的“活动
”,我将把“活动”放在参考文献中,同时我也标注了它
们的难度等级:简单、中等、困难以及非常困难。此外,
我还标注了每个问题所需的技能:数学、编码以及数据采
集。最后,对一些我个人比较喜欢的活动,我会备注心形
图标。我希望在这么多的任务活动中,你能找到适合自己
的。
为了帮助人们在教学中使用这本书,我已经开始搜集
相关的教学资料了,例如教学大纲、幻灯片、每章推荐的
配合材料以及一些任务活动的解决方案。你可以访问http
://www.bitbybitbook.com查看或完善这些资料。
导语
本书站在数据科学与社会科学的十字路口,教你利用数据方法增强科学洞察力;收录了大量多样化的案例,用每个人都能听懂的语言描述了一套测量世界的全新思维工具。
这是一本社会科学家的“跨界指南之书”、数据科学家的“素养提升之作”。不论你是想了解大数据的10个共同特征,还是想理解大公司的道德伦理困境,这本书都值得反复翻阅。
《科学》杂志、《福布斯》杂志赞誉有加。哈佛大学教授加里·金,微软研究院首席研究员邓肯·瓦茨,脸谱网数据科学家肖恩·泰勒,北京师范大学系统科学学院教授、集智俱乐部创始人张江,鼎力推荐!
书评(媒体评论)
不管你是想学习以数据为基础做决策,还是单纯
地想在网上卖出更多牙膏,这本书都会激起你的兴趣
。此书对企业和学界非常重要的贡献在于,它探讨了
如何应对社会研究中的伦理道德挑战。
——《福布斯》杂志
在这本引人入胜的书中,作者带领我们走上了一
个重要的旅程,从观察、提问和记录人们的行为,到
进行大规模数据采集,甚至招募成千上万的普通人、
公民科学家和社会科学家密切合作。
——加里·金(Gary King),哈佛大学教授
这本书由享誉全球的计算社会学家撰写,阐述了
利用数据方法增强科学洞察力的利与弊。
——邓肯·瓦茨(Ducan Watts),微软研究院首
席研究员
这是一本现代社会科学的前沿之作。作者在这本
书中收录了大量多样化的案例,并用每个人都能听懂
的语言描述了为什么这些案例如此重要。
——肖恩·泰勒(Sean Taylor),脸谱网数据科
学家
长时间以来,“社会科学是不可重复实验的”这
一观点困扰着社会科学家们。然而,随着大数据和人
工智能时代的到来,越来越多的传感器和应用程序正
在捕获、记录越来越多的人类在线行为数据。通过众
包、游戏化、人本计算的方式,我们甚至可以实施大
范围的受控实验——这无疑将改变整个社会科学的研
究范式。
——张江,北京师范大学系统科学学院教授、集
智俱乐部创始人
精彩页
第1章 简介
1.1 一处墨迹
2009年夏天,手机铃声响遍了整个卢旺达。除了来自家人、朋友和商业伙伴的数百万个电话之外,大约有1000名卢旺达人还接到了由乔舒亚·布卢门斯托克(Joshua Blumenstock)及其同事打来的电话。研究人员从卢旺达最大手机供应商的数据库中随机抽样进行调查,以完成对财富与贫困的研究,这个数据库中有150万名客户。布卢门斯托克和他的同事会询问这些被随机选中的人是否愿意参与调查,然后向其解释这项研究的性质,接下来便会询问一系列有关他们的人口学特征、社会特征和经济特征方面的问题。
到目前为止,我所描述的一切都让这项研究听起来像是一项传统的社会科学调查。但接下来我要描述的就不再传统了,至少目前来说是这样的。除了调查而来的数据外,布卢门斯托克和同事还拥有这150万人的完整通话记录。他们将这两部分数据结合起来,利用调查数据训练了一个机器学习模型,使模型能根据一个人的通话记录预测其财富状况。接着,他们利用这个模型评估数据库中150万名客户的财富状况,还利用通话记录中包含的地理信息判断这150万名客户的居住位置。最后他们将所有这些信息——估算的财富状况以及居住位置,综合到一起,绘制出高分辨率的卢旺达财富地理分布图。尤其是,他们能够估算出卢旺达2148个街区(该国的最小行政单位)中每一个街区的财富状况。
要证实这些估算是不可能的,因为从来没有人估算过卢旺达中如此小的地理区域的财富状况。但在布卢门斯托克和同事把这些估算值汇总为分别反映卢旺达30个地区财富状况的数值后,他们发现,这些数值与通过人口统计和健康调查(Demographic and Health Survey)得到的数据非常接近,而人口统计和健康调查被认为是发展中国家调查的黄金标准。虽然这两种方法在此案例中产生了类似的结果,但布卢门斯托克和同事的方法要比传统的人口统计和健康调查的方法快了差不多10倍,成本为后者的1/50左右。这些明显更快、更节省成本的预测为研究人员、政府和公司创造了新的可能性(Blumenstock,Cadamuro,and On 2015)。
这项研究有点像一个罗夏墨迹测验:人们看到的事物取决于他们的背景。许多社会科学家从中看到了一个新的测量工具,这个工具可以检验经济发展理论。许多数据科学家从中看到了一个很酷的、新的机器学习问题。许多商界人士看到了一个可以让他们从已经搜集到的大数据中获利的好方法。许多隐私权倡导者从中看到了一个可怕的警示:我们也许生活在一个大规模监控的时代。最后,许多政策制定者从中看到了新技术能够帮助我们创造一个更好的世界。其实,这项研究与这些都相关,而且正是因为它融合了这么多特征,所以我把它看作了解社会研究之未来的一扇窗。
1.2 欢迎来到数字时代
数字时代无处不在,它在不断发展,并且改变着研究的可能性。
这本书的核心前提是数字时代能为社会研究创造新的机会。研究人员现在能以不久前还几乎不可能的方式观察行为、提出问题、开展实验以及彼此协作。但新的风险也随之而来:研究人员现在能以过去绝不可能的方式去伤害人们。这些机会和风险源于从模拟时代到数字时代的转变。这种转变并不是像开灯那样瞬间就发生了,事实上,这种转变目前还尚未彻底完成。但目前为止发生的事情,已经足以让我们相信有大事正在发生了。
注意到这种转变的一个方法是观察发现你们日常生活中的变化。生活中,许多曾经是模拟的东西现在变成智能的了。也许你曾经用的是带胶卷的相机,但现在用的是数码相机(可能你们的智能手机就有数码相机的功能)。也许你们曾经读的是纸质的报纸,现在却在线看新闻。也许你们曾经用现金来付款,现在却是用信用卡。在上述每一种情况下,从模拟到数字的转变,都意味着更多关于你的信息被以数字化的形式获取并存储了下来。
事实上,总体来看,从模拟到数字的转变所产生的影响是非常惊人的。信息量正在迅速增加,更多的信息以数字化的形式被存储,进而便于分析、传输和归并。这些数字信息被称为“大数据”。在数字数据爆炸式增长的同时,有条件使用计算机的人的数量也在不断增加(图1.1)。这些趋势,即越来越多的数字数据以及越来越多的使用计算机的人,在可预见的未来很可能会持续下去。
P1-5
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/22 18:36:56