简介 |
内容推荐 本书以Python为基础,使用Sklearn平台,逐步带领读者熟悉并掌握机器学习的经典算法。全书共12章,主要内容包括人工智能概述、Python科学计算、数据清洗与特征预处理、数据划分与特征提取、特征降维与特征选择、模型评估与选择、KNN算法、决策树、线性模型、朴素贝叶斯算法、支持向量机和k均值聚类算法,附录介绍了课程教学大纲和Sklearn数据集。 本书内容精练,文字简洁,结构合理,案例经典且实用,综合性强,面向机器学习入门读者,侧重提高。 本书适合作为高等院校相关专业机器学习入门课程教材或教学参考书,也可以供从事机器学习应用开发的技术人员参考。 目录 第1章 人工智能概述 1.1 相关概念 1.1.1 人工智能 1.1.2 机器学习 1.1.3 深度学习 1.1.4 三者关系 1.2 机器学习三要素 1.2.1 数据 1.2.2 算法 1.2.3 模型 1.3 机器学习开发流程 1.3.1 数据采集 1.3.2 数据预处理 1.3.3 特征工程 1.3.4 模型构建和训练 1.3.5 模型优化和评估 1.4 Sklearn框架 1.4.1 Sklearn简介 1.4.2 Sklearn的安装过程 1.4.3 基于Sklearn的机器学习流程 1.5 Anaconda 1.5.1 Anaconda简介 1.5.2 Anaconda的安装过程 1.5.3 Anaconda的运行方式 1.5.4 Jupyter Notebook 1.6 学习建议与方法 1.6.1 学习建议 1.6.2 学习方法 1.6.3 Kaggle竞赛平台 第2章 Python科学计算 2.1 走进科学计算 2.2 NumPy 2.2.1 NumPy简介 2.2.2 创建数组 2.2.3 查看数组 2.2.4 索引和切片 2.2.5 矩阵运算 2.2.6 主要方法 2.3 Matplotlib 2.3.1 Matplotlib简介 2.3.2 图表要素 2.3.3 线图 2.3.4 散点图 2.3.5 饼状图 2.3.6 条形图 2.3.7 直方图 2.4 SciPy 2.4.1 SciPy简介 2.4.2 稀疏矩阵 2.4.3 泊松分布 2.4.4 二项分布 2.4.5 正态分布 2.4.6 均匀分布 2.4.7 指数分布 2.5 Pandas 2.5.1 Pandas简介 2.5.2 Series 2.5.3 DataFrame 2.5.4 Index 2.5.5 plot 第3章 数据清洗与特征预处理 3.1 数据清洗 3.1.1 数据清洗简介 3.1.2 评价标准 3.2 清洗方法 3.2.1 缺失值 3.2.2 异常值 3.2.3 重复值 3.2.4 Pandas数据清洗函数 3.3 特征预处理 3.3.1 归一化 3.3.2 标准化 3.3.3 鲁棒化 3.3.4 正则化 3.3.5 学生数据清洗示例 3.4 missingno 3.4.1 missingno简介 3.4.2 图示功能 3.4.3 数据可视化示例 3.5 wordcloud 3.5.1 wordcloud简介 3.5.2 wordcloud示例 第4章 数据划分与特征提取 4.1 数据划分 4.1.1 留出法 4.1.2 交叉验证法 4.1.3 自助法 4.2 独热编码 4.2.1 独热编码简介 4.2.2 独热编码示例 4.3 初识特征提取 4.4 字典特征提取 4.4.1 字典特征提取简介 4.4.2 DictVectorizer 4.5 文本特征提取 4.5.1 CountVectorizer 4.5.2 TfidfVectorizer 4.6 中文分词 4.6.1 简介 4.6.2 jieba分词库 4.6.3 停用词表 第5章 特征降维与特征选择 5.1 初识特征降维 5.2 线性判别分析 5.2.1 线性判别分析简介 5.2.2 线性判别分析示例 5.3 主成分分析 5.3.1 主成分分析简介 5.3.2 components参数 5.4 特征选择 5.4.1 简介 5.4.23 种方法 5.5 包装法 5.5.1 递归特征消除 5.5.2 交叉验证递归特性消除 5.6 过滤法 5.6.1 移除低方差特征 5.6.2 单变量特征选择 5.7 皮尔森相关系数 5.7.1 皮尔森相关系数简介 5.7.2 皮尔森相关系数应用示例 5.8 嵌入法 5.8.1 基于惩罚项的特征选择 5.8.2 基于树模型的特征选择 第6章 模型评估与选择 6.1 欠拟合和过拟合 6.1.1 欠拟合 6.1.2 过拟合 6.1.3 正则化 6.2 模型调参 6.2.1 网格搜索 6.2.2 随机搜索 6.3 分类评价指标 6.3.1 混淆矩阵 6.3.2 准确率 6.3.3 精确率 6.3.4 召回率 6.3.5 F1分数 6.3.6 ROC曲线 6.3.7 AUC 6.3.8 分类评估报告 6.4 损失函数 6.5 回归损失 6.5.1 MAE 6.5.2 MSE 6.5.3 RMSE 6.5.4 R2分数 6.5.5 Huber损失 6.6 分类损失 6.6.1 平方损失函数 6.6.2 绝对误差损失函数 6.6.3 01损失函数 6.6.4 对数损失函数 6.6.5 铰链损失函数 第7章 KNN算法 7.1 初识KNN算法 7.1.1 算法描述 7.1.2 三要素 7.2 分类问题 7.2.1 分类问题简介 7.2.2 分类问题示例 7.3 回归问题 7.3.1 回归问题简介 7.3.2 回归问题示例 7.4 案例 7.4.1 电影类型 7.4.2 鸢尾花 7.4.3 波士顿房价 7.4.4 印第安人的糖尿病 第8章 决策树 8.1 初识决策树 8.1.1 决策树简介 8.1.2 决策树相关概念 8.2 决策树算法 8.2.1 ID3算法 8.2.2 C4.5算法 8.2.3 CART算法 8.3 分类与回归 8.3.1 分类问题 8.3.2 回归问题 8.3.3 max_depth参数调优 8.4 集成分类模型 8.4.1 随机森林 序言 前言 零基础学习者掌握机器学习基础知识的路线可以从 代码开始,参加Kaggle数据挖掘比赛,体会使用每个模 型的效果,对机器学习涵盖的内容有大致了解后,再深 入地对理论知识进行完善。本书面向零基础的学习者, 以Python编程语言为基础,使用Sklearn平台,在不涉 及大量数学模型与复杂编程知识的前提下,逐步带领学 习者熟悉和掌握传统的机器学习算法。机器学习的重要 学习方法就是实践,本书的所有程序都是在Anaconda上 调试和运行的。本书包括人工智能概述、Python科学计 算、数据清洗与特征预处理、数据划分与特征提取、特 征降维与特征选择、模型评估与选择、KNN算法、决策 树、线性模型、朴素贝叶斯算法、支持向量机和k均值 聚类算法,附录介绍了课程教学大纲和Sklearn数据集 。本书具有如下特点: (1) 代码完整,注释详细。大 部分机器学习教材重理论轻代码,往往只是给出伪代码 ;而本书采用基于Python语言的Sklearn平台实现,便于 学生更快地掌握机器学习的基本思想。(2) 突出实用 性,针对每个机器学习算法都有相关案例。本书配有教 学大纲、电子课件、源码等资料。在编写过程中,陕西 省网络数据分析与智能处理重点实验室李晓戈和西安邮 电大学贾阳、王红玉、高巍然、孔韦韦、张庆生等阅读 了部分手稿,提出了很多宝贵的意见。本书在写作过程 中参阅了大量中外专著、教材、论文、报告及网上的资 料,在此一并表示敬意和衷心的感谢。本书内容精练, 文字简洁,结构合理,实训题目经典实用、综合性强, 明确定位面向初、中级读者,由入门起步,侧重提高。 特别适合作为高等院校本科或研究生相关专业机器学习 入门课程的教材和教学参考书,也可以供从事计算机应 用开发的技术人员参考。由于作者水平有限,时间紧迫 ,书中难免有疏漏之处,恳请广大读者批评指正。 作者2021年7月 导语 Python和机器学习是当今信息领域的热门领域,众多高校开设Python学习。本书以Python为基础,使用sklearn平台,封装了众多机器学习算法,回避了烦琐的数学理论知识 ,对于初学者而言,易于上手实践,能尽快对机器学习有初步认识,提早入门。本书具有如下特点:1、代码详解:区别于市场上众多机器学习教材“重理论轻代码”,往往只是给出伪代码,而本书的代码都是采用Python实现,使用sklearn平台使得机器学习算法具有实践性,从而便于学生更快地掌握机器学习的思想,加速学生入门的过程。2、突出实用性。针对每个机器学习算法都有相关案例。 精彩页 第3章数据清洗与特征预处理 数据处理是建立机器学习模型的第一步,对最终结果有决定性的作用。本章重点介 绍数据清洗与特征预处理。其中,数据清洗是指对缺失值、异常值和重复值等进行处理; 特征预处理是指通过规范化、标准化、鲁棒化和正则化等方法将数据转化成符合算法要求 的数据。最后介绍misingno库和词云,它们用于可视化显示数据相关信息。 3.数据清洗 1 3.1 数据清洗简介 1. 在处理数据之前,需要进行数据质量分析,了解数据的功能和作用,检查原始数据中 是否存在脏数据。脏数据一般是指不符合要求以及不能直接进行相应分析的数据。 脏数据往往存在如下问题:没有列头,一个列有多个参数,列数据的单位不统一,存 在缺失值、空行、重复数据和非ASCI 字符,有些列头应该是数据而不应该是列名参数, 等等。可将这些问题大致归类为缺失值、异常值和重复值等噪声数据问题。而数据清洗 就是发现并处理这些数据问题。 3.2 评价标准 1. 对于数据的评价一般具有如下标准: (1)精确性。描述数据是否与其对应的客观实体的特征一致。 (2)完整性。描述数据是否存在缺失记录或缺失字段。 (3)一致性。描述同一实体的同一属性的值在不同系统中是否一致。 (4)有效性。描述数据是否满足用户定义的条件或在一定的域值范围内。 (5)唯一性。描述数据是否存在重复记录。 3.清洗方法 2 2.缺失值 3.1 缺失值通常是指记录的缺失和记录中某个字段信息的缺失,一般以空白、NaN或其 他占位符编码,采用删除法和数据填充进行处理。 .删除法。如果某个属性的缺失值过多,可以直接删除整个属性。 .数据填充。使用一个全局变量填充缺失值,使用属性的平均值、中间值、最大值、 57 最小值或更为复杂的概率统计函数值填充缺失值。 常用填充方法如表3.1所示。 表3.1 常用填充方法 填充方法方法描述 平均值/中位数根据属性值的类型,用该属性取值的平均值/中位数填充 固定值将缺失的属性值用一个常量替换 最近值用最接近缺失值的属性值填补 Sklearn中的Imputer类或SimpleImputer类用于处理缺失值。其中,Imputer在 preprocessing模块中,而SimpleImputer在sklearn.impute模块中。 Imputer具体语法如下: from sklearn.preprocessing import Imputer imp=Imputer(missing_values="NaN", strategy="mean") SimpleImputer具体语法如下: from sklearn.impute import SimpleImputer imp=SimpleImputer(missing_values=np.nan, strategy="mean") 参数含义如下: . missing_values=np.nan:缺失值是NaN。 .strategy="mean":用平均值、中位数等填充缺失值。 【例3.1】 缺失值处理示例。 import pandas as pd import numpy as np #from sklearn.preprocessing import Imputer from sklearn.impute import SimpleImputer df=pd.DataFrame([["XXL", 8, "black", "class 1", 22], ["L", np.nan, "gray", "class 2", 20], ["XL", 10, "blue", "class 2", 19], ["M", np.nan, "orange", "class 1", 17], ["M", 11, "green", "class 3", np.nan], ["M", 7, "red", "class 1", 22]]) df.columns=["size", "price", "color", "class", "boh"] print(df) #1. 创建Imputer #imp=Imputer(missing_values="NaN", strategy="mean" ) imp=SimpleImputer(missing_values=np.nan, strategy="mean") #2. 使用fit_transform 函数完成缺失值填充 df["price"]=imp.fit_transform(df[["price"]]) print(df) 58 【程序运行结果】 b 4.5 a NaN dtype: float64 f 1.0 e NaN d 3.0 c 4.0 b 5.0 a NaN dtype: float64 f 1.0 e 2.5 d 3.0 c 4.0 b 5.0 a NaN dtype: float64 3.3 特征预处理 有一句话在业界广泛流传:“数据和特征决定了机器学习的上限,而模型和算法只是 逼近这个上限而已。”这里的数据是指经过特征预处理后的数据。特征预处理就是对数据 进行集成、转换、规约等一系列处理,使之适合算法模型的过程。 Sklearn提供了preprocessing模块,用于进行归一化、标准化、鲁棒化、正则化等数据 预处理。preprocessing模块常用方法如表3.4所示。 表3.4 preprocessing模块常用方法 方 法 名方法含义 preprocessing.MinMaxScaler 归一化 preprocessing.StandardScaler 标准化 preprocessing.RobustScaler 鲁棒化 preprocessing.normalize 正则化 68 3.3.1 归一化 归一化又称为区间缩放 |