网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 为数据而生(大数据创新实践)
分类
作者 周涛
出版社 北京联合出版公司
下载
简介
编辑推荐

2015年度十大科技创新人物、百万级畅销书《大数据时代》中文版译者、中国大数据领军人周涛耗时三年首部个人专著《为数据而生(大数据创新实践)》横空出世!

没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀与拳拳的责任之心。睿智潇洒的文风背后是对大数据的一腔朴素浓厚的感情。

这是一部大数据在智慧城市、医疗、教育、金融、商业等领域的实践笔记;更是一部为未来大数据的发展提供有可行性的路径指南!

内容推荐

中国大数据领军人、大数据创新与实践一线专家、百万级畅销书《大数据时代》中文版译者周涛,耗时三年,将海量真实案例披沙拣金呈现给广大读者。在《为数据而生(大数据创新实践)》中,您将看到大数据在智慧交通系统、个性化医疗、智慧学校以及金融和商业等领域的中国式创新实践,并为未来大数据的发展提供有可行性的路径指南。

目录

自序:在麻瓜和魔法师之间做出选择

Part 1 大数据时代,用数据说话

 01 从万物皆数到万事皆数

主动或被动,我们都是数据贡献者

一切都被记录,一切都被分析

四大方面,让数据指数级增长

 02 从十数九表到数态万千

结构化数据

非结构化数据

 03 从隔水相望到阡陌交通

地点数据

个人数据

数据与数据,1+1远大于

大数据创新实践

 用购买记录给用户画像

 04 大数据和云计算驱动新工业革命

计算:第三次工业革命中的新能源

数据:第三次工业革命中的新材料

证析:第三次工业革命中的先进工艺技术

个性化:大数据时代最显著的商业特征

大数据创新实践

 一张失败的公交卡

 个性化医疗,安吉丽娜·朱莉和史蒂夫·乔布斯

Part 2 大数据1.0:分析

 05 统计呈现洞见

抓出非法的MCC套用

打击“电老鼠”

“抓获”过度医疗和骗保行为

识别社交网络中的垃圾用户

新浪微博面临的三大问题

快递员的通话记录蕴藏哪些商机

付费节目点播最多的是什么

 06 关联蕴含价值

关联规则挖掘

协同过滤

关联分析是寻找因果关系的利器

大数据创新实践

 谁最关注超声波洁面产品

 发现“一月三电号”僵尸用户

 07 预测指导决策

点击购买类预测

基于移动轨迹的位置预测

链路预测

大数据预测的主流方法是什么

大数据创新实践

 一张信用卡逾期不还款的概率有多大

 签到记录预测用户的土著化指数

Part 3 大数据2.0:外化

 08 寻求外部数据的帮助

从行为数据预测学生考试成绩

从食堂打卡记录中“定位”孤独人群

从社会计量标牌洞察人力资源管理

预测离职率和升职率

行为数据让非法集资无所遁行

 09 自身数据的外部价值

45个关键词实时预测流感趋势

阿里巴巴的“淘CPI”指数

 10 机器学习,数据外化最神奇的利器

机器学习三板斧1:特征

机器学习三板斧2:模型

机器学习三板斧3:融合

Part 4 大数据3.0:集成

 11 交易市场:数据资源的汇聚地

科研数据共享

政府数据开放

全国可流通数据的目录体系

 12 数据城堡:数据人才的竞技场

Kaggle,数据科学之家

数据城堡,Kaggle模式的中国尝试者

 13 创新工厂:数据技术的嘉年华

大数据创业公司困境

大型传统企业信息化的难题

构建大数据挖掘平台

建设大数据创新工厂

结束语 成为大数据企业

致谢

试读章节

在我的记忆中,点火烧树这件事情在我们小区广为流传,很长的一段时间里都让我风光不已。遗憾的是,我没有办法将彼时彼刻确切而生动的画面分享给我现在的朋友,更让我失望的是,最近和当年同一个院子里面长大的伙伴们说到此事,他们竟然已经完全没有印象了。至于亲长记忆中我的成长轶事:妈妈说我这辈子说的第一个词是“嘎嘎”,在四川话中是肉的意思,可见天生吃货;五舅妈说我小时候特别调皮,一溜烟跑过自由市场,要把所有豆腐摊子上面的豆腐都戳一个小洞,害得卖豆腐的远远看见我就要把豆腐盖上……这些有趣的故事,在我的记忆中是一点儿影子都没有了。

刚刚搬到玉林小区的时候,单位宿舍楼的外面就是一条小河,河对面是大片的农田。有时候,趁着爸爸妈妈不在,我们一群小屁孩儿取出藏好的“棍棒刀枪”,就到河对面去“远足探险”,往往因为带回来玉米、青蛙等成果,而被爸爸妈妈发现、教育。后来我们学聪明了,在河边整理了一小块空地,搬几块砖垒一个简单的灶,搞些树枝废纸点燃,把这些就地取材的东西加上从家里偷的土豆、红薯和各色调料,当场烧烤吃掉。现在想起来,其实爸爸妈妈应该是早就知道了,不然谁会经常到家里偷走土豆红薯,然后又一脸煤灰地回来。不说破,是因为不忍破坏我们的开心。

现在,我们的房子紧贴着一环路,算是城市中心的中心了。小河变成了马路,河对面的那块空地变成了交通银行一个很大的营业厅。好几次我和朋友路过此处,讲起以前童年的故事,都难以把营业厅里面取号等候的人群和“昨天”蹲在灶火边上等着红薯变熟的那群孩子联系在一起。有时候我自己都无法相信,今天这个被钢铁和金钱武装到了牙齿的伟大城市,曾经不过是绿水乡村柔软的延伸。

以前看法国作家帕特里克·莫迪亚诺(Patrick Modiano)的中篇小说《青春咖啡馆》,其中有一名外号叫“船长”的人,在一个红色塑料封皮的笔记本上,记录了三年来光顾孔岱咖啡馆的每一位客人进来时的确切日期和时刻,一共记满了190页。我一直以为这只是一种小说家的夸张手法,却不知道借助现代的技术,我身边的朋友做得比“船长”还要细致。

前几个月,我去拜访一个朋友,他家里有一个一岁四个月的小女孩儿,很可爱。在孩子房间的一角有一个很小的摄像头,视野覆盖了房间里大部分的空间,小孩子在这个房间里面绝大部分的活动都被这个摄像头记录下来了。朋友告诉我,这个摄像头一天记录的视频压缩存储,也就2GB左右的数据量,他们把每天的视频做成一个文件,小孩子从出生到一岁的所有记录,用一个移动硬盘就能全部存储下来了。孩子的母亲兴冲冲地把硬盘接上电脑,给我看小孩子满百天的样子、第一次摇摇晃晃站起来的样子、“抓周”时候纠结犹豫的样子……  对于爸爸妈妈而言,这些记录无疑是有用的,在他们年轻的时候,不会错过小孩子成长中每一个重大的飞跃;当他们慢慢老去,孩子也离开自己身边出去闯荡的时候,他们随时可以重温曾经的快乐温馨。

对于孩子而言,我不知道拥有这种记录到底是幸运抑或不幸。幸运的是,他们永远都不会在记忆的泥沼中迷失,因为有“标准答案”可以随时查证。不幸的是,他们失去了在记忆中重塑自己过去的机会:童年变成数据,定格在硬盘中,既不可能变得更好,也不可能变得更坏!

我读《神雕侠侣》不下十遍,前前后后,自己心目中小龙女这个人物的相貌和性情变化很大,既有自身感情离合的原因,也有彼时彼刻不同心境的原因。后来看了热播的电视剧,再想起小龙女这个角色,脑海里一定出现李若彤的形象,想赶也赶不走。

所以说,记忆中的童年是缤纷梦幻的,数据中的童年是不容置疑的,前者属于自己,后者属于大家。不仅属于大家,还抢走了原来属于自己的!

P8-10

序言

在麻瓜和魔法师之间作出选择

我在中科大读本科的时候,上过一门关于“符号计算”的课程。当时授课的老师跟我们说,她以前曾经花很多年的工夫学习和研究过“怎么样在以穿孔纸带为输入方式的计算机上高效实现一些数值计算”。当时她的研究水平和成果在国内应该是领先的,本以为就靠此成就大业了,但是很快,这个世界上突然就再也找不到博物馆以外的穿孔纸带了——我们现在都用键盘和鼠标了。

纸带机的故事让我想起了一个有些悲伤的段子,我且用第一人称复述一遍。我有一个表哥,因为盗窃被抓。表哥负责藏赃销赃,团伙其他人不知道脏物在哪里,他也死活不承认自己知道,结果被重判了10 年监禁。坐牢之后老婆也跑了,亲戚朋友也散了,只有我还时不时去看望一下,带些东西。直到快出狱的时候,表哥才跟我说,等出狱了要带我一起发大财。我当时特别激动,经常在梦中被大富大贵的场景惊醒,也觉得自己真的是好心有好报。等表哥出狱的时候,我隆重地给他接风洗尘。表哥也迫不及待,当晚就买了两把大铁锹,拉我去郊外一个林子里挖宝。“是金条?是银元?”我激动不已,表哥却笑而不答。我们大半夜挖出了两个大铁箱,然后用铁锹把生锈的锁头劈开,哇,满满两铁箱的传呼机。

讲这两个例子,是想说我们这个时代变化太快——这个时代的特征就是有很多新时代层出不穷。而咱们中国人,最最悲哀的事情,就是经常以为自己是时代的精英,最终却成了时代的弃儿。N年以前最让人艳羡的一群人,不是大学生,而是国有企业的工人。他们或许没有想到有一天自己的“金饭碗”会被打破,贫病下岗。现在又有一大群人,削尖脑袋想挤进公务员或者事业单位人员的队伍,好一辈子守着公务员编制或者事业编制。对,就是这群扑火的人,会在未来编制改革的时候看清楚自己飞蛾的本体。

什么样的人才能在下一个时代生存和发展

那么,问题来了,什么样的人才能在下一个时代生存和发展呢?是那些拥有公务员编制或者事业编制的人吗?在下一个时代,自动化、定量化和个性化会成为主要的特征。恒河沙数的智能终端将会遍布这个世界——从农场到工业制造装置,从智能家居到人体内外。这些智能终端采集和产生的数据,经由数据挖掘和机器学习的手段加工分析,不仅能够提高传统农业、工业的效率,还能够为每一个人提供包括教育、零售、娱乐、金融和医疗等方面完全个性化的服务。驱动这个时代来临的关键力量是数据与数据化的思维。

拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!不管你今天从事的是什么行业,金融、医疗、教育甚至只是一个一线的产业工人或者服务人员,你所在的行业将来都很可能被颠覆,你现在的职业将来都可能变成一种自动化的服务。面对奇幻而又危险的未来世界,今天你就需要在麻瓜和魔法师之间做出选择!在一个麻瓜占绝大多数的世界里面,做一个麻瓜也没有什么不好的,然而很可能,未来的世界是一个魔法世界,你还满足于做一个麻瓜吗?

用数据说话,做最棒的魔法师

最棒的魔法师,是既深谙大数据的理念,又掌握着大数据的核心技术。但是,对于绝大部分人来说,后者是有困难的。我想特别强调的是,即便你不能掌握一项特定的数据技术,了解大数据的理念,培养大数据的思维模式,也是非常重要的——不管你从事什么工作,这种大数据的思维模式都是有帮助的。事实上,我一直觉得类似于统计学(包括概率论、数理统计、统计物理等)和机器学习的理念,对于我们理解这个世界都是有帮助的,应该有一些生动的科普书,把这些重要的理念用通俗的语言告诉大家。

数据化思维的核心是什么?就是定量化,或者说“用数据说话”。主观能动性当然是我们人类的重要能力,特别是行业专家的思路和判断往往非常重要,效果甚至好于机器学习的结果。但是,一切的评估都要定量化。举个例子来说,要证明一个营销行为B 比营销行为A 更好,必须要无偏地把用户划分成两个群,一个接受A一个接受B,然后通过对比来验证两者的效果。政府做决策的时候,例如改变医保的规则,也需要充分的数据支撑,提前能够量化这个改变带来的效果,并且时时监督政策实施后的结果。学会用数据来说明“哪个更好哪个更坏”,是数据化思维的第一步。

作出让世界尊重的原始创新

当魔法师的另一个好处,就是我们可以进入魔法世界——这是一个浪漫的战争世界,我们必须变得更强,才能打倒伏地魔!

在我读大学的时候,我们的案头枕边,放着的是茨威格的《异端的权利》,是索尔仁尼琴的《古拉格群岛》,我们追忆和供奉几千年来为了人类进步付出甚至牺牲的科学家、哲学家、文学家、政治家,等等,我们能够非常清楚地说出哪些人是世界的脊梁。我们在字里行间追寻中国最苦难最黑暗的时代,羡慕在那个时代战斗的英雄,我们急切地希望这个时代能够让我们为民族的复兴战斗——尽管可能不是用刀枪!

我不知道我们这一代,是不是中国流淌着战斗血液的最后一代大学生。我们现在面对的是不一样的战场,不是刺刀机枪,而是要做让世界尊重的原始创新。我在这本书里面描写了很多在大数据领域努力拼搏希望有所创新的中国人,尽管他们中的绝大部分距离成功还非常远,但我希望他们的故事以及这些故事背后的理念、技术和精神,能够唤起更多的创新者。

有两个问题,我希望每一个读者都问问自己。第一,在你的一生中,有没有可能作出类似于SpaceX 和AlphaGo 这样让世界尊重的原始创新。人生特别美好的一件事情,就是通过努力,把一件看起来不可能的事情做成!这个问题可以换一个问法,就是如果有10个最聪明厉害的人,愿意3-5年竭尽全力为你工作,你会和他们一起做一件什么事情?第二,你所做的事情,能够为我们的国家乃至整个世界,产生什么样的重大贡献。建一个色情网站、开发一款暴力游戏,也能挣大钱,而且很快。致力于优化教育资源或医疗资源的配置,可能非常苦非常慢,挣钱也不如暴力游戏,但是可能改变甚至拯救一大群人。如果让我选择,我会选择后者。事实上,你所贡献的要比你所得到的更能体现你的价值!

有些了解我创业历史的人,掰着手指数我的企业和资产,几千万、几亿、几十亿……然后看着我千年不变的穿着,就认为我是一个艰苦朴素不懂得享乐的人,甚至笑话我是榆木脑袋。其实恰恰相反,我是一个非常了解生活品质,而且非常资深的吃货,也从来不觉得高级的享受是一种耻辱。我有很多非常喜欢吃的东西,而且往往都价格不菲:巴西松子、车厘子、山竹、哈根达斯朗姆酒味的冰淇淋……有的时候,我在超市里面或者路上看到这些东西,非常想吃非常想买,但是我都会问自己,我最近几天做了什么贡献,有什么成果,是否配得上去享受这些东西。绝大多数时候,我都忍住了。

序终于写完了,我去买山竹了,啦啦里啦啦。

后记

成为大数据企业

什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案①。但是,直观地,我们可能觉得Google更像是一个大数据的企业,阿里巴巴也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外,之所以Google和阿里巴巴更像大数据的企业,是因为他们有深入的数据分析工具,利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用,这还不包括类似于AlphaGo这样的奇葩。

这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在“科学网”上写的一篇博客,二是为一本名为Code Halos的书写的序言。这个版本可以看作是上两个版本的补充和扩充,同时也是本书一些重点内容的重述(为了保证本文的独立性,可以不依赖本书直接阅读,少量书中给出过的文献和注释在本文中重复出现了)。然而遗憾的是,并没有一条放之四海皆准的通往大数据企业的康庄大道,更没有点石成金之术可以让一个企业快速GoogIe化。这篇结束语只是提出一些看得见摸得着的建议,藏在这些建议背后的大数据理念,或许更加重要。

尽管我是用Step1、Step2这样的说法来列举成为大数据企业的措施,但是这些步骤之间并没有严格的逻辑上谁决定谁或者时间上谁先谁后的关系。举个例子来说,最好的办法当然是先有了数据标准再整理采集数据,这样可以不走任何弯路,但实际上完全没有数据,企业不会有动力做标准建设,做出来的标准也可能是纸上谈兵,完全不实用。又比如,数据管理平台的建设能够帮助更好地进行全面数据化,但实际上它多半是全面数据化战略进行了一定程度之后才开始启动建设的。总体来说,写在更前面位置的,是更基础的,但是没有绝对的依赖关系。

Step 1.全面数据化

“数据化”浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,并相信这些数据一定会在某一天产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析。实现自身优化的基础。

我去长虹集团调研的时候,他们告诉我,长虹电器在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度和噪音强度,等等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素。明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA系统),很多内部即时通讯、邮件往来、工作分配和业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富!正如我在书中第三部分提到的,我们通过对这些数据的分析,能够更精确地预测员工的离职率和升职率,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件①②,等等。但是这些提升,都是建立在企业拥有相应数据的基础上。

总的来说,全面数据化要求企业采集并存储企业生产经营中的一切数据。形成企业数据资产的概念。

Step 2.整理数据资源,建立数据标准,形成管理规范

很多企业已经有了一些数据储备,或者通过第一步,开始快速积累了一些数据。但是企业管理层,尤其是跨业态拥有多家子公司的集团运营的企业,一般而言,对于自己到底有哪些数据资源是没有清晰认识的,更拿不出一张较完备的数据目录。

……Step 7.推动自身数据的开放与共享

伟大的企业懂得如何把最聪明的人集合起来,为自己服务。

企业有了大量数据和一定的分析能力后,不能故步自封,而要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。现在的Netflix已经不再是~家电影在线租赁公司,而是国际一流的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据,相当一部分都能够以各种方式开放出来——这种开放会带来更大价值!国际化的如Kaggle(英文平台,WWW.kaggle.COl_n)。国内如DataCastle(中文平台,WWW.pkbigdata.corn),都是很有影响力的大数据创新竞赛平台。举个例子,电子科技大学大数据研究中心曾经在DataCastle上举办过学生成绩预测的比赛,总奖金才50000元,却吸引了915支队伍2000余名参赛者参加比赛,其中200多只队伍来自于“985”和“211”知名高校。这里面最佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中了。最近现金巴士推出的“微额借贷用户人品预测大赛”更是吸引了1531支参赛队伍。还有一种最近新出的比赛方式,就是企业给出数据集的描述和样本数据,参赛选手设计创新型商业应用,提交产品说明或者商业计划书。

企业通过这些数据开放计划,可以学习最先进的算法和最具创新性的数据应用思路。实现自身数据的价值最大化。

Step 8.数据产业的战略投资布局

企业有了一定的规模,光靠自己的能力还不够或者还太慢,就可以考虑通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。这类战略型的投资,有三个可能的出发点:

(1)产业集成。从投资方原有优势产业或大数据前景广阔的重点产业入手,进行全产业链布局,集中力量。

(2)技术集成。以数据采集、存储、计算、分析和可视化的创新型工具为主要投资对象,提供具有普适性的解决方案。

(3)数据集成。以数据流动共享,发挥外部价值为理念,投资一批能够紧密合作、数据互补和可控性强的企业。

对于原来没有从事过数据密集型和信息技术密集型行业的企业来说,第二类投资方向的风险特别大,建议主要从(1)(3)两类考虑。这种投资有别于财物投资,主要是考量被投资企业与投资方的整合能力,以及所能提供的数据的稀缺性、独立性、多源性、流动性和互补性。

最后,补上这样一个结束语的目的,是希望读者能够从中领悟到企业的大数据之道!如果说有那么几家企业,受到这本书的启发,在商业模式、产品和业务方面产生了可观的价值,这就是作者最大的成功了。

书评(媒体评论)

周涛是中国年轻有为的大数据专家,他不仅做大数据研究,而且将产、学、研融为一体,在大数据创新实践上一直卓有成效。在大数据渡过普及期的今天,更需要像周涛这样的一线专家与实践者为下一步大数据的创新指出方向:大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?

在他这本洋溢着浓浓的数据情怀与拳拳的责任之心的著作中,我们可以看到系统而清晰的路径指南!

——田溯宁,宽带资本董事长

当大数据的概念如此流行的時候,难得有本好书可以把实操、理论和理念都讲明白的,值得认真一读!

——曾鸣,阿里巴巴集团执行副总裁

文笔优雅,深入浅出,思维缜密,思想深远!

——杨强,香港科技大学教授

周涛用大数据分析的新视角,重新审视我们所面对的这个世界,他带领一群年轻人,在“大众创业,万众创新”的道路上,迈出了自己坚实的脚步。在大数据挖掘与分析,特别是网络数据的挖掘与分析方面做出了系统性的贡献,其创新成果解决了重大科学问题,突破了关键核心技术,产生了重大社会经济效益,显著改善了百姓生活。

——“2015年度十大科技创新人物”颁奖词

随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/8 3:33:07