网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 大数据治理
分类
作者 (美)桑尼尔·索雷斯
出版社 清华大学出版社
下载
简介
编辑推荐

桑尼尔·索雷斯的《大数据治理》是一个信息治理专家奉献的鸿篇巨制,作者以极其实用和通俗易懂的风格,倾心向读者解读大数据治理这一复杂主题。

作为一家大公司的资深IT专家,我本人在面对数据窘境时,感觉不知所措。对数据领域的从业人员来说,面临的问题多过答案。我所在的组织是南非的主导电信运营商,我们拥有海量的电话详单、位置数据和社交媒体生成的数据。要明智地使用数据,就必须管理所有数据。

本书匠心独运,揭开了大数据的迷人景致,为我们应对大数据领域的挑战,提供了必要的智力成果。

内容推荐

大数据将打开各行各业的数据“潘多拉魔盒”。社交网站、电商巨头、电信运营商乃至金融、医疗、教育等行业,都将加入大数据的“淘金”热潮,政府部门同样会从大数据中获益匪浅。如何将海量数据应用于决策、营销和产品创新?如何利用大数据平台优化产品、流程和服务?如何利用大数据更科学地制定公共政策、实现社会治理?所有这一切,都离不开大数据治理。可以说,在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承载,分析是手段,应用是目的。桑尼尔·索雷斯的《大数据治理》的翻译出版,正当其时。

《大数据治理》一书较好地满足了理解大数据治理框架的需要,系统地阐述了大数据治理的各个版块,分析了五大类大数据的治理,考察了大数据治理在典型行业的实践,并深入浅出地介绍了当今主流的大数据技术与平台。该书具有一定的可参照性、可操作性和可读性,是大数据治理领域值得一读的参考书。

目录

第一部分 开篇

 第1章 大数据治理概述

 第2章 大数据治理的框架

2.1 大数据类型

2.2 信息治理准则

2.3 大数据治理的产业和功能场景

 第3章 成熟度评估

3.1 IBM信息治理委员会的成熟度模型

3.2 评估成熟度的示例问题

 第4章 业务案例

4.1 通过大数据治理,提高运营实时性和旅客安全度

4.2 量化大数据治理对客户隐私的财务影响

4.3 通过治理大数据生命周期,降低IT成本

4.4 评估数据质量和主数据对大数据计划的影响

4.5 计算大数据质量的价值

 第5章 路线图

5.1 路线图案例研究

第二部分 大数据治理准则

 第6章 大数据治理的组织

6.1 绘制关键流程图并建立职责分配模型,以识别大数据治理中的利益攸关者

6.2 确定新角色和既有角色的适当组合

6.3 酌情任命大数据主管

6.4 在传统信息治理角色的基础上,酌情增加大数据责任

6.5 建立承担包括大数据在内的责任混合式信息治理组织

 第7章 元数据

7.1 创建一个体现关键大数据术语的业务定义的词库

7.2 理解对ApacheHadoop中元数据的持续支持

7.3 对业务词库中的敏感大数据进行标记

7.4 从相关的大数据存储中输入技术元数据

7.5 将相关的数据源与业务词库中的术语进行链接

7.6 使用运营元数据监测大数据的流动

7.7 保留技术元数据,以支持数据血统和影响分析

7.8 从非结构化文件中采集元数据,支持企业搜索

7.9 扩展既有的元数据角色,将大数据纳入其中

 第8章 大数据隐私

8.1 识别敏感的大数据

8.2 对元数据库中的敏感大数据进行标记

8.3 应对国家、州(省)层面的隐私立法和隐私限制

8.4 管理个人数据跨国界流动的情况

8.5 监控特权用户对敏感大数据的访问

 第9章 大数据质量

9.1 与商业上的利益攸关者协作,建立并测度大数据质量的置信区间

9.2 利用准结构化和非结构化数据,提高人口稀疏的结构化数据的质量

9.3 使用流数据分析技术解决内存中的数据质量问题,无须将中间结果输入硬盘

9.4 任命对信息治理委员会负责的数据主管,由其负责提高测度的质量

 第10章 业务流程整合

10.1 识别将会受到大数据治理影响的关键流程

10.2 建立关键活动的流程图

10.3 针对业务流程中的关键步骤,制定大数据治理政策

 第11章 主数据整合

11.1 提高主数据的质量,以支持大数据分析

11.2 利用大数据提高主数据的质量

11.3 提高关键参考数据的质量和一致性,以支持大数据治理计划

11.4 审视社交媒体平台政策,以确定与主数据管理整合的程度

11.5 从非结构化文本中挖掘有用信息,以丰富主数据

 第12章 管理大数据的生命周期

12.1 基于规制和业务要求,扩展保留时间表,将大数据包含其中

12.2 提供法律保留区,并支持电子证据展示(eDiscovery)

12.3 压缩大数据并将其存档,降低IT成本,提高应用绩效

12.4 管理实时流数据的生命周期

12.5 保留社交媒体记录,以符合规制要求,并支持电子证据展示

12.6 基于规制和业务要求,正当合理地处置不再需要的大数据

第三部分 大数据的类型

 第13章 Web和社交媒体数据

13.1 在制定有关客户社交媒体数据的可接受使用的政策时,考虑不断变化的规制和习俗

13.2 制定有关雇员和求职者社交媒体数据的可接受使用的政策

13.3 利用置信区间评估社交媒体数据的质量

13.4 制定有关Cookies与其他Web跟踪装置的可接受使用的政策

13.5 在不侵犯隐私并遵从规制要求的基础上,定义连接在线和离线数据的政策

13.6 确保网络统计数据的一致性

 第14章 机器对机器的数据

14.1 评估目前可用的地理位置数据

14.2 制定关于客户地理位置数据的可接受使用的政策

14.3 制定关于雇员地理位置数据的可接受使用的政策

14.4 保证RFID数据的隐私安全

14.5 制定与其他类型M2M数据的隐私相关的政策

14.6 处理元数据和M2M数据的质量问题

14.7 制定与M2M数据的保留期有关的政策

14.8 提高主数据的质量,以支持M2M计划

14.9 确保SCADA设施免遭网络攻击

 第15章 大体量交易数据

 第16章 生物计量学数据

16.1 评估与生物计量学数据的可接受使用相关的隐私含义

16.2 与法律顾问通力合作,确定演进中的规制对使用客户和雇员生物计量学数据的影响

 第17章 人工生成的数据

17.1 制定屏蔽敏感的人工生成数据的政策

17.2 使用非结构化的人工生成数据,提高结构化数据的质量

17.3 管理人工生成数据的生命周期,降低成本并遵循规制要求

17.4 从非结构化的人工生成数据中获得洞察力,以丰富MDM

第四部分 行业视角

 第18章 医疗保健机构

18.1 利用非结构化数据,提高人口稀疏的结构化数据的质量

18.2 提取从结构化数据中无法获得的更多临床因素

18.3 设定关键业务术语的一致性定义

18.4 确保跨科室的患者主数据的一致性

18.5 与美国HIPAA的规定一致,符合受保护的健康信息的隐私要求

18.6 创造性管理参考数据,以获得更多临床洞察

 第19章 公用事业部门

19.1 复制仪表读数

19.2 主关键字的参照完整性

19.3 异常的仪表读数

19.4 客户地址的数据质量

19.5 信息生命周期管理

19.6 数据库监测

19.7 技术架构

 第20章 通信服务提供商

20.1 大数据类型

20.2 将大数据与主数据进行整合

20.3 大数据隐私

20.4 大数据质量

20.5 大数据生命周期管理

第五部分 大数据技术

 第21章 大数据的参考架构

21.1 大数据源

21.2 开源基础组件

21.3 Hadoop发行版

21.4 流数据分析

21.5 数据库

21.6 大数据整合

21.7 文本分析

21.8 大数据发现

21.9 大数据质量

21.10 大数据的元数据

21.11 信息政策管理

21.12 主数据管理

21.13 数据仓库与数据集市

21.14 大数据分析与报告

21.15 大数据安全与隐私

21.16 大数据生命周期管理

21.17 云

 第22章 大数据平台

22.1 IBM

22.2 甲骨文

22.3 SAP

22.4 微软

22.5 HP

22.6 Informatica

22.7 SAS

22.8 Teradata

22.9 EMC

22.10 Amazon

22.11 谷歌

22.12 Pentaho

22.13 Talend

附录 缩略语列表

译者后记

试读章节

第1章 大数据治理概述

当下,数据正在将我们淹没。蔚为壮观的数据,来自于社交媒体、电话GPS信号、公用事业智能仪表、RFID标签、数字图片和其他数据源中的在线视频。IDC宣称,2011年,数字世界的信息量超过1.8ZB(泽字节,1.8亿GB),预计将以每两年翻番的速度增长。大部分数据可视为大数据。谈到大数据,通常以“3V”——体量(Volume)、速度(Velocity)和多样性(Variety)概括其特征。我们增加了一个“V”(Value),代表数据的价值。以下是对这四个特征的简单描述:

体量(数据的静态描述)。大数据通常具有较大体量。企业被数据堆砌,很容易积攒TB(太字节)级和PB(拍字节)级的信息,甚至在将来可轻易积攒ZB级的信息。

速度(数据的动态描述)。通常具有时间敏感性,流数据的分析必须以毫秒计,以支撑实时决策。

多样性(数据的多格式化)。大数据包括结构化数据、准结构化数据和非结构化数据,如电子邮件、音频、视频、点击流、日志文档和生物计量学数据。

价值(数据的经济有效性)。组织正在努力以经济有效的方式从大数据中获得洞察力。这正是ApacheHadoop等开源技术大行其道的原因所在。本书后续章节中详细介绍的Hadoop,是一种以经济有效的方式处理成百上千台计算机中的大数据集的软件。

组织必须治理全部大数据,由此引出了本书的主题。我们将大数据治理定义如下:

大数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。

我们将上述大数据治理的定义分解为以下部分:

(1)大数据是广义信息治理计划的一部分。信息治理机构必须采取以下措施,以将大数据整合到既有的信息治理框架中:

扩展信息治理宪章的外延,将大数据治理纳入其中;

拓宽信息治理委员会成员的范围,将数据科学家等大数据的超级用户吸纳进来;

任命处理社交媒体等特定大数据的主管;

将大数据与元数据、隐私、数据质量和主数据等信息治理准则结合。

(2)大数据治理关乎政策制定。政策包括人们在特定情形下如何作为的成文和非成文的宣告。譬如,大数据治理政策可能申明,未经顾客知情并同意,组织不得将顾客的Facebook资料整合到其主数据记录中。

(3)大数据必须优化。考虑一下组织是如何将现实世界的准则应用到大数据治理中的。公司设计了精致的企业资产管理计划,对机器、飞机、交通工具和其他资产进行妥善管理。与对实物资产进行登记类似,组织必须对大数据进行如下优化:

元数据——建立大数据类别信息

数据质量管理——像公司对实物资产进行定期检修一样,定期净化大数据。

信息生命周期管理——对大数据进行存档,并在没必要继续保存某些数据时,将其删除。

(4)大数据隐私至关重要。组织同样必须建立旨在防止大数据误用的适当政策。组织在处理社交媒体、地理定位、生物计量学和其他形式的个人可识别信息(PII)时,必须考虑涉及的声誉、规制和法律风险。

(5)大数据必须变现。所谓变现,就是将数据等资产转化为现金的过程,变现的方式可以是将数据卖给第三方,也可以是利用数据开发新的服务。在传统的会计准则下,不允许公司在平衡报表中将信息视同为财务资产,除非信息是从外部来源购买的。尽管传统的会计处理趋于保守,但在当下,公司意识到,必须将大数据视为具有财务价值的企业资产。例如,运营部门可以通过传感器数据,根据定期检修计划,提高设备正常运行时间。呼叫中心可以分析客户代表的记录,通过了解顾客呼叫的原因,降低呼叫量。此外,零售商可以使用主数据激活Facebook的应用程序,提升顾客忠诚度。

P3-5

序言

在不到两年时间中,大数据迅速成为热门词,但对其的解读,却见仁见智。数据科学家醉心于前沿的数据技术开发,经济学家关注大数据的产业价值,企业家期盼大数据的阳光照进日常的经营现实,法学家强调隐私保护……

欣慰的是,拥抱大数据成为各方的共识,且思且行的大数据“淘金”之旅,已然启动。大数据的“淘金”之旅,需要脚踏实地的努力。大数据治理是连接大数据科学和应用的桥梁,若要到达风光无限的大数据彼岸,大数据治理一定是“必修课”之一。要实现大数据的变现,就离不开科学的大数据治理,离不开与时俱进的管理革新。因此,桑尼尔的《大数据治理》一书,可谓应运而生。中国联通研究院的匡斌先生将该书翻译成中文,相信对中国读者会有所助益。

大数据治理是传统信息治理的延续和扩展。它不可能与传统的信息治理切割,延续性既是保护历史投资的需要,也体现了信息治理准则的一脉相承。

不同类型数据的整合,结构化数据与非结构化数据、准结构化数据的整合,主数据与社交媒体等其他类型数据的整合,不同部门乃至不同行业数据的整合,都需要大量细致的工作。大数据治理涉及人员、流程和软件,大数据需要去伪存真,需要删繁就简,需要化大为小。凡此种种,不胜枚举。

大数据治理的约束条件构成一个三层结构的金字塔,最底层无疑是特定的文化背景和规制环境。根深蒂固的隐私文化,动态演进的隐私规制,是发掘大数据价值面临的最大挑战。第二层则是技术。大数据技术是治理大数据的基础,前向兼容、后向扩展、简便易用的大数据平台和解决方案,自然语言处理、人脸识别等非结构化数据处理等技术,形成“物”的制约。第三层则是人的因素。大数据治理呼唤大批熟稔大数据技术的人才,也需要更多的大数据管理者和应用开发者,他们可以得心应手甚至出神入化地将技术、行业、流程、功能等进行整合。

说到底,大数据治理的核心是人。人既是大数据价值的追求者,又是大数据隐私的主体和捍卫者。就这个意义而言,人的因素是大数据治理的最大制约。人类历史上每一个技术发明与创造,均有“善”与“恶”两面,文明的进步就是发挥技术“善”的一面,治理控制“恶”的一面。

《大数据治理》一书以实用性为导向,通过教科书式的体例安排,对大数据治理进行了全方位的解构,并将大数据治理规程化。对于尚处于大数据战略起飞阶段的组织,本书是一本很好的大数据治理参考蓝本。作者举重若轻,以朴素无华的语言,微言大义的案例,为致力于大数据治理的实操者,奉献了一本有价值的通俗读物。

纵观当今的大数据技术、平台和解决方案,海外厂商仍占据了绝对主流地位。有关大数据的研究和著述,同样如此。现阶段,“拿来主义”尤有必要。从大数据的体量看,中国在大数据领域的潜在地位,无异于中东地区在石油业的地位。相信在不远的将来,在大数据领域,中国将异军突起。

大数据的思想启蒙运动正在进行。从大数据治理起步,不断探索这个领域的产权、法律和交易等问题,才能成为进入大数据世界的先行者。

宽带资本董事长 田溯宁

2014年1月10日

后记

2012年以来,中国大陆的大数据思想启蒙运动如火如荼。在盛杨燕、周涛、涂子沛、黄海、胡世忠、赵国栋、郭昕等有识之士的推动下,中文版大数据图书接踵而至,译、著兼备,知、行俱顾。一时间,从学术界、产业界、投资界到传媒业,大数据炙手可热,大数据概念迅速普及。然而,与海量的大数据相比,与大数据作为“潜力股”的革命性意义相比,大数据领域的著述不过沧海一粟而已,连“小数据”中的“小数据”都算不上。《大数据治理》一书的翻译出版,就试图为中国读者提供一个大数据治理领域的“小参考文本”。

在移动互联网时代,每个人都是大数据的创造者,随着技术的成熟,数量远超芸芸众生的传感器,将成为忠实而智慧的大数据采集者。作为一种具有战略意义的新资源,大数据具有自生性和可人工生成的特征,这是黄金、石油和货币等传统资源望尘莫及的:黄金具有稀缺性;石油不可再生;货币多了引起通货膨胀。

大数据很美,绝不是看上去很美。相对于传统资源来说,大数据的规模变现周期大为缩短。以石油和大数据而论,从“价值认知”到“产业规模化”,同样的惊险一跃,二者不啻天壤之别。沈括在《梦溪笔谈》中即预言石油“后必大行于世”,而石油真正成为国民经济的血液,却在工业革命让石油勘探开采技术逐渐成熟之后。放到当今产业界的现实语境下,大数据的大变现尚有待时日。好在,单就技术而论,数据科学和技术的突飞猛进,已将大数据变现的时日,缩小到可能的“3年”、“5年”,抑或“10年”。这样的时日,足够让人跃跃欲试。

如果说翻译是内容的中英文映射(Map),那么,写译后感就是感想的升华(sublimation)。映射和升华(MapSublimation),是一个苦中有乐的学习和提升过程。全书译成之际,译者最强烈的感受是:大数据治理需要保持孜孜以求的进取心和如履薄冰的敬畏心。

先说进取心。大数据治理是一项系统工程,不可能一蹴而就。大到大数据技术平台的搭建、组织的变革、政策的制定、流程的重组,小到元数据的管理、主数据的整合、各种类型大数据的个性化治理和大数据的行业应用,无不需要艰苦细致的工作。相对于大数据分析,大数据治理少了些激荡人心的宏图,多了些具体而微的细节,少了些明媚,多了些阴霾。没有一如既往的进取心,是无法实现大数据的有效治理的。

再论敬畏心。大数据的变现,不是隐私的变现。在大数据治理的全过程中,对可识别的个人信息等数据隐私,应心存敬畏,行有所止。隐私这把“达摩克利斯之剑”,高悬在每一个大数据“掘金”者的头顶,因噎废食的悲观主义和掩耳盗铃的技术至上做派,同样是不可取的。在挖掘价值和呵护隐私之间实现妥协与平衡,不仅是一门科学,也是一种艺术。

“又快又好”,显然很难得兼,大数据治理如此,译事亦如此。“信达雅”的境界,很多时候需要牺牲效率。受时间和能力所限,本书的译文显然不乏败笔。毫无疑问,所有的疏漏、不当和谬误,是译者当之无愧的“专利”。祈望方家指正!

需要特别说明的是,原书为保持各章节的相对独立性,少数章节存在重复之处,译者对前后文重复内容适当作了删节。另,为节约篇幅计,原书附录B、C、D三部分和索引未予翻译。

感谢清华大学出版社刘志彬先生为本书中文版面世所作的工作,感谢原作者桑尼尔先生对译者的信任,感谢伊利诺伊大学(厄巴纳一香槟分校)陈颖博士为本书在中国大陆出版所作的努力,感谢国家“千人计划”专家、中国联通研究院大数据暨云计算首席专家陈一听博士利用休息时间通览译稿,并提出宝贵意见。感谢中国联通研究院刘诚明院长对译者给予的支持和鼓励。

感谢工信部软件服务业司司长陈伟教授、宽带资本董事长田溯宁博士欣然为本书中文版作序,感谢IBM全球副总裁兼IBM软件集团大中华区总经理胡世忠先生对本书中文版的赞誉。  对于本书的成色和翻译的质量,读者,也只有读者,才是最公正的裁判。是为译者后记。

译者 匡斌

二零一四年元月二十日

书评(媒体评论)

大数据涉及不同来源的复杂数据。倘若缺乏得当的数据治理,那就很难正确地整合数据。《大数据治理》一书为您提供了制订大数据治理计划所必需的信息和见识,而大数据治理计划是支持大数据整合项目不可或缺的。好样的,桑尼尔!

Symphony IRI Group技术研究副总裁 杰·犹斯科 博士

本书是一个信息治理专家奉献的鸿篇巨制,作者以极其实用和通俗易懂的风格,倾心向读者解读大数据治理这一复杂主题。

作为一家大公司的资深IT专家,我本人在面对数据窘境时,感觉不知所措。对数据领域的从业人员来说,面临的问题多过答案。我所在的组织是南非的主导电信运营商,我们拥有海量的电话详单、位置数据和社交媒体生成的数据。要明智地使用数据,就必须管理所有数据。

本书匠心独运,揭开了大数据的迷人景致,为我们应对大数据领域的挑战,提供了必要的智力成果。

本书的字里行间,流淌着丰富的信息。如今,我终于有机会将本书所述的理念和知识融会贯通。我更有信心应对公司面临的大数据挑战,对此,我满怀热忱,决心已定。

拜桑尼尔在本书中提供的指南所赐,我们所有数据从业人员都将获得成功!

南非电信数据治理办公室主任 柯马林·伽迪

可以说,在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承栽,分析是手段,应用是目的。《大数据治理》一书的翻译出版,正当其时。

相信在可预见的将来,经过循序渐进的治理,大数据将成为重要的国家资源和企业的核心生产要素。大数据将给中国的政府、企业和其它组织,带来切切实实的收益。

工业和信息化部软件服务业司司长 陈伟 教授

大数据的淘金之旅,需要脚踏实地的努力。大数据治理是连接大数据科学和应用的桥梁,若要到达风光无限的大数据彼岸,大数据治理一定是“必修课”之一。

大数据的思想启蒙运动正在开始,从大数据治理起步,不断探索这个领域的产权、法律和交易等问题,才能成为进入大数据世界的先行者。

宽带资本董事长 田溯宁 博士

2013年,IBM在全球进行了5次有关大数据的调研,发现:超过2/3的企业正在使用大数据分析来支持企业创收策略;近40%的企业在采纳大数据分析后的6个月内,就看到了快速的投资回报(ROI)。

大数据治理是大数据分析的基础。本书梳理了大数据治理的各个方面,分享了全球很多经典案例,对于企业充分利用大数据帮助创造新的市场机会,有很大借鉴意义。

IBM全球副总裁兼IBM软件集团大中华区总经理 胡世忠

随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/3 14:07:00