一流本科课程“数据科学导论”负责人,数据科学50人,中国人民大学青年杰出学者朝乐门老师新作。
聚焦数据分析经典算法,夯实数据分析师核心技能基础。
对算法从应用场景、算法原理、核心术语、Python编程实践、重点与难点解读、习题和主要参考文献及推荐阅读书目七个维度进行介绍,内容全面实用。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 数据分析原理与实践 基于经典算法及Python编程实现 |
分类 | 教育考试-考试-计算机类 |
作者 | 朝乐门 |
出版社 | 机械工业出版社 |
下载 | |
简介 | 编辑推荐 一流本科课程“数据科学导论”负责人,数据科学50人,中国人民大学青年杰出学者朝乐门老师新作。 聚焦数据分析经典算法,夯实数据分析师核心技能基础。 对算法从应用场景、算法原理、核心术语、Python编程实践、重点与难点解读、习题和主要参考文献及推荐阅读书目七个维度进行介绍,内容全面实用。 内容推荐 本书主要采用理论学习与实践操作并重、上层应用与底层原理相结合的方式讲解数据分析师需要掌握的数据分析基础知识,包括基础理论、关联规则分析、回归分析、分类分析、聚类分析、集成学习、自然语言处理、图像处理和深度学习。每章内容从7个方面展开讲解:包括应用场景、算法原理、核心术语、Python编程实践、重点与难点解读、习题和主要参考文献及推荐阅读书目。 本书在编写过程中不仅充分借鉴了国内外有名大学设立的相关课程、专家学者的代表性成果,以及近几年的热门畅销书,而且也考虑到了国内相关课程的教学以及相关从业人员自学的需求。 本书可以满足数据科学与大数据技术、大数据管理与应用、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统、商业分析等多个专业的教师、学生的教学和学习需要,也适合广大从事数据分析工作的人员学习参考。 目录 第1章 数据分析概述 1.1 数据分析的基本类型 1.2 数据分析与机器学习 1.2.1 统计学与机器学习 1.2.2 机器学习算法的类型 1.2.3 机器学习中的算法、模型、参数和超参数 1.2.4 数据分析中的基础算法 1.2.5 数据分析中的高级算法 1.3 数据分析的主要流程 1.4 数据分析中的算法选择 1.5 数据分析中常用的Python包 1.5.1 NumPy 1.5.2 Pandas 1.5.3 Matplotlib 1.5.4 Seaborn 1.5.5 statsmodels 1.5.6 scikitlearn 1.5.7 jieba 1.5.8 OpenCV 1.5.9 TensorFlow和PyTorch 1.6 数据分析的注意事项 1.7 数据分析的现状与趋势 1.8 习题 1.9 主要参考文献及推荐阅读书目 第2章 关联规则分析 2.1 应用场景 2.2 算法原理 2.2.1 Apriori算法的假设 2.2.2 Apriori算法的流程 2.3 核心术语 2.3.1 事务型数据 2.3.2 项集 2.3.3 支持度 2.3.4 置信度 2.3.5 提升度 2.3.6 关联规则 2.4 Python编程实践——购物车分析 2.4.1 业务理解 2.4.2 数据读入 2.4.3 数据理解 2.4.4 数据预处理 2.4.5 生成频繁项集 2.4.6 计算关联度 2.4.7 可视化 2.5 重点与难点解读 2.6 习题 2.7 主要参考文献及推荐阅读书目 第3章 回归分析 3.1 应用场景 3.2 算法原理 3.2.1 基本思路 3.2.2 评价方法 3.3 核心术语 3.3.1 回归分析中常用的统计量 3.3.2 特征矩阵与目标向量 3.3.3 过拟合与欠拟合 3.3.4 高杠杆点、离群点和强影响点 3.4 Python编程实践 3.4.1 线性回归——女性身高与体重数据分析 3.4.2 多元回归——广告收入数据分析 3.4.3 泊松回归——航班数据分析 3.5 重点与难点解读 3.5.1 参数解读——线性回归算法 3.5.2 ZScore标准化 3.5.3 方差 3.5.4 相关系数 3.5.5 泊松分布 3.5.6 L1和L2正则化 3.5.7 闵氏距离、欧氏距离、曼哈顿距离和切比雪夫距离 3.6 习题 3.7 主要参考文献及推荐阅读书目 第4章 分类分析 4.1 应用场景 4.2 算法原理 4.1.1 KNN 4.1.2 贝叶斯分类 4.1.3 支持向量机 4.1.4 逻辑回归 4.3 核心术语 4.3.1 偏差和方差之间的权衡 4.3.2 学习曲线 4.3.3 混淆矩阵 4.3.4 ROC曲线与AUC面积 4.3.5 贝叶斯理论 4.3.6 核函数及核技巧 4.4 Python编程实践——病例自动诊断分析 4.4.1 使用KNN算法实现 4.4.2 使用贝叶斯分类算法实现 4.4.3 使用SVM算法实现 4.4.4 使用逻辑回归算法实现 4.5 重点与难点解读 4.5.1 参数解读——KNN、贝叶斯分类、SVM和逻辑回归算法 4.5.2 数据标准化处理 4.5.3 混淆矩阵及分类算法的评价指标 4.5.4 优选似然估计 4.5.5 判别模型与生成模型 4.5.6 类别不平衡问题 4.5.7 KD Tree与Ball Tree 4.5.8 GridSearchCV及其原理 4.5.9 GaussianNB、MultinomialNB和BernoulliNB的区别 4.5.10 LabelEncoder及其原理 4.6 习题 4.7 主要参考文献及推荐阅读书目 第5章 聚类分析 5.1 应用场景 5.2 算法原理 5.2.1 kmeans算法 5.2.2 聚类效果的评价 5.3 核心术语 5.4 Python编程实践——蛋白质消费特征分析 5.4.1 业务理解 5.4.2 数据读入 5.4.3 数据理解 5.4.4 数据准备 5.4.5 模型训练 5.4.6 模型评价 5.4.7 模型调参 5.4.8 模型预测 5.5 重点与难点解读 5.5.1 参数解读——kmeans算法 5.5.2 kmeans++方法 5.5.3 elkan方法 5.6 习题 5.7 主要参考文献及推荐阅读书目 第6章 集成学习 6.1 应用场景 6.2 算法原理 6.2.1 随机森林 6.2.2 XGBoost 6.3 核心术语 6.4 Python编程实践——房屋价格预测分析 6.4.1 使用随机森林算法实现 6.4.2 使用XGBoost实现 6.5 重点与难点解读 6.5.1 参数解读——随机森林和XGBoost 6.5.2 纯度优选化 6.5.3 数据标准化 6.5.4 泰勒展开式 6.5.5 集成学习中几个注意事项 6.6 习题 6.7 主要参考文献及推荐阅读书目 第7章 自然语言处理 7.1 应用场景 7.2 算法原理 7.2.1 中文分词 7.2.2 词袋模型 7.2.3 Ngrams模型 7.2.4 TFIDF算法 7.2.5 文本规范化 7.2.6 词性标注 7.3 核心术语 7.4 Python编程实践——2021年政府工作报告分析 7.4.1 业务理解 7.4.2 数据读入 7.4.3 分词处理 7.4.4 添加自定义词汇 …… |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。