![]()
内容推荐 本书旨在指导高职院校学生对大数据技术进行入门学习,以任务驱动为导向,系统介绍了大数据技术基础知识及应用案例。全书共分为六大项目,具体包括大数据与大数据时代、大数据处理平台、Hadoop开发环境的搭建、数据采集与预处理、数据计算与数据存储、数据分析与可视化。 本书可作为高职院校大数据应用技术、软件技术等专业学生的专业基础课教材,也可作为其他计算机相关专业学生的选修课程教材以及大数据技术爱好者的自学参考书。 目录 项目一 大数据与大数据时代 任务1-1 认识大数据时代 1.1.1 大数据时代 1.1.2 大数据时代到来的原因 1.1.3 大数据时代产生的变革 任务1-2 掌握大数据基本特征和处理流程 1.2.1 数据的定义和分类 1.2.2 大数据的定义 1.2.3 大数据的特征 1.2.4 大数据处理流程 任务1-3 大数据技术的发展历程 任务1-4 大数据产业结构及行业应用 1.4.1 大数据产业结构 1.4.2 大数据、云计算、人工智能、物联网的深度融合 1.4.3 大数据技术在各行业领域的应用案例 任务1-5 了解大数据行业的岗位需求 1.5.1 大数据行业的岗位需求 1.5.2 高职院校学生在大数据行业的就业定位 小结 课后习题 项目二 大数据处理平台 任务2-1 构建大数据处理平台的原因 2.1.1 大数据时代的数据类型 2.1.2 传统数据处理平台遇到的问题 2.1.3 大数据处理平台 任务2-2 最早的大数据生态系统—Hadoop 2.2.1 Hadoop的简介和发展 2.2.2 Hadoop的设计思想和特点 2.2.3 Hadoop的两大基础组件 2.2.4 Hadoop生态系统的架构和其他组件 任务2-3 大数据处理平台架构 2.3.1 大数据计算模式 2.3.2 大数据处理平台的基本架构及数据处理流程 2.3.3 主流大数据处理平台的架构 2.3.4 大数据处理平台架构案例介绍 小结 课后习题 项目三 Hadoop开发环境的搭建 任务3-1 VMware虚拟机的安装 任务3-2 VMware上Ubuntu系统的安装和配置 3.2.1 Ubuntu系统的安装 3.2.2 Ubuntu系统的网络设置 任务3-3 Ubuntu系统上Hadoop的安装和配置 3.3.1 Java环境的安装和配置 3.3.2 SSH的安装以及免密码登录的设置 3.3.3 Hadoop的安装和配置 任务3-4 Hadoop下的词频统计 小结 课后习题 项目四 数据采集与预处理 任务4-1 数据采集初识 4.1.1 传统数据采集和大数据采集 4.1.2 大数据采集方式 4.1.3 大数据采集工具 4.1.4 数据预处理 任务4-2 互联网数据采集 4.2.1 爬虫 4.2.2 爬虫编程语言及爬虫分类 任务4-3 Windows下Python爬虫开发环境的搭建 4.3.1 Windows下Python3.x的安装和环境变量的配置 4.3.2 requests和Beautiful Soup包的安装 4.3.3 PyCharm的安装和使用 任务4-4 Python爬虫应用程序的编写 4.4.1 爬虫爬取数据的过程 4.4.2 网页的基本结构 4.4.3 网站数据的抓取 4.4.4 网站数据的解析与数据清洗 4.4.5 数据的爬取与预处理 小结 课后习题 项目五 数据计算与数据存储 任务5-1 大数据计算框架初识 5.1.1 大数据计算和传统数据计算的区别 5.1.2 常见的大数据计算框架简介 任务5-2 大数据存储初识 5.2.1 分布式文件系统 5.2.2 NoSQL数据库简介 5.2.3 HBase简介 任务5-3 Spark和HBase开发环境的搭建 5.3.1 HBase的安装和配置 5.3.2 Spark的安装和配置 任务5-4 Spark应用程序的编写 5.4.1 Linux下Scala IDE For Eclipse工具的安装和配置 5.4.2 Spark应用程序的编写及打包 5.4.3 Spark应用程序jar包的提交 小结 课后习题 项目六 数据分析与可视化 任务6-1 大数据分析初识 6.1.1 大数据分析简介 6.1.2 Python大数据分析环境的搭建 6.1.3 常见的大数据分析方法 任务6-2 大数据可视化初识 6.2.1 大数据可视化的概念 6.2.2 常用的数据可视化工具 任务6-3 房屋数据分析可视化案例编程 6.3.1 PySpark的配置和使用 6.3.2 Spark应用程序的编写 小结 课后习题 参考文献 |