章 大数据基础
1.1 什么是大数据
1.2 大数据处理涉及哪些方面
1.3 为什么用Python解决大数据的问题
1.4 关于编程的注意事项
练习题
第2章 Python环境的准备
2.1 Python环境的准备
2.1.1 Python
2.1.2 Anaconda
2.2 集成开发环境
2.2.1 PyCharm
2.2.2 Spyder
2.2.3 IPython和Jupyter
2.3 包的管理和维护
2.3.1 pip
2.3.2 conda和Anaconda
2.4 大数据处理常用的扩展包
2.4.1 NumPy
2.4.2 Pandas
2.4.3 Matplotlib
2.4.4 SciPy
2.4.5 scikit-learn
练习题
第3章 大数据获取
3.1 如何获取数据
3.2 HTML的基础知识
3.2.1 HTML页面的获取与显示
3.2.2 单次请求与响应
3.2.3 HTML网页内容和结构
3.3 HTML页面的解析
3.3.1 使用正则表达式提取信息
3.3.2 使用XPath提取信息
3.3.3 使用BeautifulSoup提取信息
3.4 页面的获取
3.4.1 使用urllib
3.4.2 使用requests库获取网页
3.4.3 使用selenium获取网页
3.4.4 网页抓取面临的问题
3.5 Python 爬虫框架Scrapy
练习题
第4章 大数据存储
4.I文件存储
4.1.1 CSV
4.1.2 XML
4.1.3 JSON
4.1.4 Excel
4.2 数据库存储
4.2.1 关系型数据库通用流程
4.2.2 SQLite关系型数据库
4.2.3 MySQL关系型数据库
4.2.4 NoSQL数据库
练习题
第5章 大数据的数学基础
5.1 基本的数据结构和运算
5.1.1 数组对象的创建与属性
5.1.2 数组对象的元素级运算
5.2 矩阵运算
5.2.1 数组的合并、拆分及切片
5.2.2 矩阵的乘积与线性代数
5.3 统计与概率计算
5.4 随机数生成
练习题
第6章 数据预处理
6.1 数据清洗
6.1.1 缺失值处理
6.1.2 噪声数据处理
6.1.3 数据错误发现与修复
6.2 数据集成
6.3 数据转换
6.3.1 z-score规范化
6.3.2 优选最小规范化
6.3.3 属性转换
6.4 数据归约
练习题
第7章 数据挖掘与分析
7.1 模型选择与验证
7.1.1 模型选择
7.1.2 模型验证
7.2 分类算法
7.2.1 分类学习的性能评估
7.2.2 逻辑回归
7.2.3 支持向量机
7.2.4 朴素贝叶斯
7.2.5 决策树
7.2.6 实例分析
7.3 回归预测
7.3.1 回归学习的性能评估
7.3.2 线性回归
7.3.3 支持向量机(回归)
7.3.4 等式回归
7.3.5 决策树(回归)
7.3.6 实例分析
7.4 聚类分析
7.4.1 基于距离的聚类
7.4.2 基于密度的聚类算法
7.4.3 基于层次的聚类算法
7.4.4 聚类的性能评价
7.4.5 实例分析
7.5 主成分分析
练习题
第8章 大数据可视化
8.1 数据可视化基础
8.2 使用Matplotlib绘图
8.2.1 准备环境
8.2.2 图表相关的术语
8.3 使用Matplotlib绘制常见图表
8.3.1 散点图
8.3.2 折线图
8.3.3 条形图
8.3.4 直方图
8.3.5 面积图
8.3.6 饼图
8.3.7 箱形图
8.4 进阶功能
8.4.1 子图
8.4.2 中文显示
8.4.3 组合图形与标注
8.5 如何画出更好的图
练习题
参考文献