内容推荐 武志学编著的《大数据导论(思维技术与应用21世纪高等院校云计算和大数据人才培养规划教材)》将基本概念与实例相结合,由浅入深、循序渐进地对大数据思维、技术和应用做了全面系统的介绍。全书共12章,分为大数据基础篇、大数据存储篇、大数据处理篇、大数据挖掘篇和大数据应用篇。 大数据基础篇的内容涵盖了大数据思维理念、大数据的产生与作用、大数据基本概念、大数据采集工具Flume和Scribe、大数据爬虫工具Nutch和Scapy、大数据预处理工具Kettle、大数据处理架构Hadoop;大数据存储篇的内容包含分布式文件存储系统HDFS、海量数据存储数据库系统HBase和海量数据仓库系统Hive;大数据处理篇主要介绍了分布式并发计算批处理模式MapReduce,基于内存的快速处理模式Spark,以及基于实时数据流的实时处理模式Spark Streaming;大数据挖掘篇主要对分类、预测、聚类和关联等各类大数据挖掘算法的原理和使用场景进行了描述,并使用Spark MLlib提供的机器学习算法进行了实例讲解;大数据应用篇分别从大数据场景应用的横向和纵向出发,介绍了大数据在各个功能领域的应用场景和在各个行业的应用场景。 本书可作为高校大数据相关专业和其他专业的大数据导论课程的教材,每个知识点都配有与理论学习内容相结合的案例介绍和代码实例,并在每章后面配有丰富的作业。本书也可以作为广大IT从业人员系统了解大数据技术和应用的参考书。 作者简介 武志学,博士山西运城人,北京科技大学学士、硕士,剑桥大学三一学院计算机科学博士,英国纽卡斯尔大学研究院士(相当于国内的博士后)。国际知名云计算企业citrix(思杰)公司前主任研究员,现任电子科技大学成都学院云计算科学与技术系主任、电子科技大学成都学院云计算联合实验室主任、成都国腾实业集团CTO、国家级企业技术中心国腾云计算研究中心主任、四川省云计算产业联盟副主任、四川省高性能计算专家委员会副主任委员、成都市软件产业协会专家委员、四川省特聘专家、成都市特聘专家、四川省“百人计划”、成都市“创新人才计划”获得者。 近年来,参与了开发制定国际云平台基础设施层0penstack。并领导开发了2个子项目。同时还参与了开发国际云平台——PaaS层CloudFoundry。 目录 第一部分 大数据基础篇 第1章 大数据思维 1.1 什么是大数据 1.2 从IT时代到大数据时代 1.3 大数据的产生与作用 1.3.1 大数据的产生 1.3.2 大数据的作用 1.4 大数据时代的新理念 1.4.1 对研究范式的新认识:从第三范式到第四范式 1.4.2 对数据重要性的新认识:从数据资源到数据资产 1.4.3 对方法论的新认识:从基于知识到基于数据 1.4.4 对数据分析的新认识:从统计学到数据科学 1.4.5 对计算智能的新认识:从复杂算法到简单算法 1.4.6 对管理目标的新认识:从业务数据化到数据业务化 1.4.7 对决策方式的新认识:从目标驱动型到数据驱动型 1.4.8 对产业竞合关系的新认识:从以战略为中心到以数据为中心 1.4.9 对数据复杂性的新认识:从不接受到接受数据的复杂性 1.4.10 对数据处理模式的新认识:从小众参与到大众协同 1.5 总结 习题 第2章 大数据技术概述 2.1 大数据处理的基本流程 2.1.1 数据抽取与集成 2.1.2 数据分析 2.1.3 数据解释 2.2 大数据关键技术 2.2.1 大数据采集技术 2.2.2 大数据预处理技术 2.2.3 大数据存储及管理技术 2.2.4 大数据处理 2.2.5 大数据分析及挖掘技术 2.2.6 大数据展示技术 2.3 总结 习题 第3章 大数据采集 3.1 大数据采集概述 3.1.1 大数据分类 3.1.2 大数据采集方法分类 3.2 系统日志采集方法 3.2.1 Flume的基本概念 3.2.2 Flume使用方法 3.2.3 Flume应用案例 3.3 网络数据采集方法 3.3.1 网络爬虫原理 3.3.2 网络爬虫工作流程 3.3.3 网络爬虫抓取策略 3.3.4 Scrapy网络爬虫系统 3.3.5 小结 3.4 总结 习题 第4章 大数据预处理 4.1 大数据预处理概述 4.1.1 大数据预处理整体架构 4.1.2 数据质量问题分类 4.1.3 大数据预处理方法 4.2 数据清洗 4.2.1 遗漏数据处理 4.2.2 噪声数据处理 4.2.3 不一致数据处理 4.3 数据集成 4.4 数据转换 4.5 数据消减 4.5.1 数据立方合计 4.5.2 维数消减 4.5.3 数据压缩 4.5.4 数据块消减 4.6 离散化和概念层次树 4.6.1 数值概念层次树 4.6.2 类别概念层次树 4.7 ETL工具Kettle 4.7.1 ETL工具简介 4.7.2 安装Kettle 4.7.3 Kettle的数据流处理 4.8 总结 习题 第5章 大数据处理系统 5.1 大数据技术概述 5.1.1 分布式计算 5.1.2 服务器集群 5.1.3 大数据的技术基础 5.2 Google大数据处理系统 5.2.1 GFS 5.2.2 MapReduce 5.2.3 BigTable 5.3 Hadoop大数据处理系统 5.3.1 Hadoop系统简介 5.3.2 Hadoop生态圈 5.3.3 Hadoop版本演进 5.3.4 Hadoop发行版本 5.4 总结 习题 第二部分 大数据存储篇 第6章 大数据文件系统HDFS 6.1 HDFS简介 6.2 HDFS基本原理 6.2.1 文件系统的问题 6.2.2 HDFS的基本思想 6.2.3 HDFS的设计理念 6.2.4 HDFS的局限 6.3 HDFS系统实现 6.3.1 HDFS整体架构 6.3.2 HDFS数据复制 6.4 HDFS数据访问机制 6.4.1 读取流程 6.4.2 写入流程 6.5 HDFS操作 6.5.1 HDFS常用命令 6.5.2 HDFS的Web界面 6.5.3 HDFS的Java API 6.6 总结 习题 第7章 NOSQL数据库HBASE 7.1 NoSQL概述 7.1.1 NoSQL的起因 7.1.2 NoSQL的特点 7.1.3 NoSQL数据库面临的挑战 7.1.4 NoSQL的类型 7.2 HBase概述 7.3 HBase数据模型 7.3.1 数据模型概述 7.3.2 数据模型的基本概念 7.3.3 概念视图 7.3.4 物理视图 7.4 HBase命令行 7.4.1 一般操作 7.4.2 DDL操作 7.4.3 DML操作 7.4.4 HBase表实例 7.5 HBase的运行机制 7.5.1 HBase的物理存储 7.5.2 HBase的逻辑架构 7.6 HBase的编程 7.6.1 HBase的常用Java API 7.6.2 HBase编程实例 7.7 总结 习题 第三部分 大数据处理篇 第8章 大数据批处理 HADOOP MAPREDUCE 8.1 MapReduce概述 8.1.1 批处理模式 8.1.2 MapReduce简释 8.1.3 MapReduce基本思想 8.1.4 Map函数和Reduce函数 8.2 Hadoop MapReduce架构 8.3 Hadoop MapReduce的工作流程 8 |