![]()
作者简介 目录 译者序 前言 读者指南 章数据科学家的试验与磨难1 1.1数据?科学?数据科学!1 1.2数据科学家:现代鹿角兔4 1.3数据科学工具9 1.4从数据到洞察力:数据科学工作流11 1.4.1识别问题13 1.4.2获取数据13 1.4.3数据挖掘13 1.4.4建模与评价13 1.4.5表征与互动14 1.4.6数据科学:一个迭代过程14 1.5总结15 第2章Python:完全不同的编程语言16 2.1为何是Python?为何不是?17 2.1.1使用Shell或不使用Shell19 2.1.2使用iPython/JupyterNotebook20 2.2初探Python21 2.2.1基本类型21 2.2.2数字21 2.2.3字符串22 2.2.4复数23 2.2.5列表24 2.2.6元组27 2.2.7字典29 2.3控制流31 2.3.1if...elif...else31 2.3.2while32 2.3.3for33 2.3.4try...except34 2.3.5函数36 2.3.6脚本和模块39 2.4计算和数据处理41 2.4.1矩阵操作和线性代数41 2.4.2NumPy数组和矩阵42 2.4.3索引和切片45 2.5“熊猫”前来救驾46 2.6绘图和可视化库:Matplotlib50 2.7总结52 第3章能够探知的机器:机器学习和模式识别53 3.1认知模式53 3.2人工智能和机器学习54 3.3数据很好,但也需要其他支持56 3.4学习、预测和分类57 3.5机器学习和数据科学58 3.6特征选择59 3.7偏差、差异和正规化:平衡法60 3.8一些有用的措施:距离和相似性61 3.9注意“维度的诅咒”64 3.10Scikit-learn是我们的朋友67 3.11训练和测试70 3.12交叉验证72 3.13总结75 第4章关系难题:回归76 4.1变量之间的关系:回归76 4.2多元线性回归78 4.3普通最小二乘法80 4.4大脑与身体:单变量回归83 4.5对数变换90 4.6使任务更容易:标准化和扩展93 4.6.1正则化或单位缩放94 4.6.2z-Score缩放95 4.7多项式回归96 4.8方差–偏差权衡99 4.9收缩:选择运算符和Ridge101 4.10总结105 第5章鹿角兔和野兔:聚类107 5.1聚类107 5.2k–均值聚类108 5.2.1聚类验证110 5.2.2k–均值实际操作112 5.3总结115 第6章独角兽和马:分类116 6.1分类116 6.1.1混淆矩阵117 6.1.2ROC和AUC119 6.2使用KNN算法分类121 6.3逻辑回归分类器126 6.3.1逻辑回归的解释129 6.3.2逻辑回归的应用130 6.4使用朴素贝叶斯算法进行分类136 6.4.1朴素贝叶斯分类器139 6.4.2朴素贝叶斯分类的应用140 6.5总结144 第7章决策:分层聚类、决策树和集成技术145 7.1分层聚类145 7.2决策树150 7.3集成技术160 7.3.1套袋164 7.3.2助推164 7.3.3随机森林165 7.3.4层叠和混合166 7.4集成技术实践167 7.5总结171 第8章少即多:降维172 8.1降维172 8.2主成分分析175 8.2.1PCA实践177 8.2.2PCA在鸢尾花数据集中的应用180 8.3奇异值分解183 8.4推荐系统187 8.4.1基于内容的过滤实践188 8.4.2协同过滤实践191 8.5总结195 第9章内核秘诀:支持向量机197 9.1支持向量机和内核方法197 9.1.1支持向量机199 9.1.2内核的技巧204 9.1.3SVM实践:回归205 9.1.4SVM实践:分类208 9.2总结212 附录Scikit-learn中的管道213 参考文献217 内容推荐 本书由前IBM首席数据科学家撰写,旨在为励志成为数据科学家的读者给出一个可行的实践指南。从Python入门开始,逐步实现数据分析、机器学习等通用算法,进而讨论数据科学家的典型工作流程,很后从实践入手,由浅入深,精选决策树、降维技术、支持向量机等数据分析案例,让读者能逐步理解晦涩的公式理论并上手操作,可以满足不同层次的读者需求。 |