网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | Python大数据与机器学习实战 |
分类 | 人文社科-社会科学-语言文字 |
作者 | 谢彦 |
出版社 | 电子工业出版社 |
下载 | ![]() |
简介 | 作者简介 谢彦,从事软件开发和算法研发十余年,曾就职于联想研究院、元心科技等公司。参与研发机顶盒、上网本、智能手机操作系统,工作涉及上层应用、集群构建、图形底层优、语音合成与识别、数据挖掘、深度学习算法等。带领团队经验丰富,擅长团队内部人才培训。__eol__个人开发的应用“天琴语音阅读器”用户数达百万量级,近两年撰写数据挖掘和机器学习文章百余篇,CSDN阅读量100多万人次。现就职于和兴创联健康科技有限公司,专注于医疗大数据应用研发。作者的公众号:算法学习分享。__eol__ 目录 目 录 章 Python大数据开发入门11.1 大数据工程师必备技能11.2 Python开发环境51.2.1 Windows环境51.2.2 Linux环境71.2.3 Docker环境101.3 Python开发工具161.3.1 Python命令行环境161.3.2 Jupyter环境181.4 Python数据类型231.4.1 数值241.4.2 字符串241.4.3 列表251.4.4 元组261.4.5 集合261.4.6 字典271.5 Python函数和类271.5.1 定义和使用函数281.5.2 lambda匿名函数281.5.3 类和继承281.6 Python常用库291.6.1 Python内置库291.6.2 Python图形图像处理301.6.3 Python自然语言处理311.6.4 Python数据分析和处理321.6.5 Python机器学习331.7 Python技巧341.7.1 Python程序调试341.7.2 去掉警告信息351.7.3 制作和导入模块361.7.4 异常处理371.8 Python常见问题38第2章 科学计算Numpy402.1 多维数组402.1.1 创建数组402.1.2 访问数组422.1.3 修改数组432.2 数组元素运算442.2.1 一元函数442.2.2 二元函数452.2.3 广播462.2.4 自定义ufunc函数47 2.3 常用函数482.3.1 分段函数482.3.2 统计函数492.3.3 组合与分割512.3.4 矩阵与二维数组522.3.5 其他常用函数54第3章 数据操作Pandas553.1 数据对象553.1.1 Series对象553.1.2 DataFrame对象573.1.3 Index对象603.2 数据存取633.2.1 访问数据表元素633.2.2 修改数据表元素663.3 分组运算683.3.1 分组693.3.2 聚合703.3.3 转换713.3.4 过滤723.3.5 应用723.4 日期时间处理733.4.1 Python日期时间处理733.4.2 Pandas日期时间处理753.4.3 时间序列操作763.4.4 数据重排84第4章 数据可视化864.1 Matplotlib绘图库874.1.1 准备工作874.1.2 散点图与气泡图884.1.3 线图90 4.1.4 柱图924.1.5 饼图954.1.6 箱线图和小提琴图964.1.7 三维图974.1.8 Matplotlib绘图区域1004.1.9 文字显示问题1034.1.10 导出图表1044.1.11 Matplotlib技巧1054.2 Seaborn不错数据可视化1074.2.1 准备工作1074.2.2 连续变量相关图1084.2.3 分类变量图1094.2.4 回归图1134.2.5 多图组合1154.2.6 热力图1184.2.7 印刷品作图1194.3 PyEcharts交互图1194.3.1 ECharts1194.3.2 准备工作1204.3.3 绘制交互图1204.3.4 在网页中显示图123第5章 获取数据1255.1 读写文件1265.1.1 读写文本文件1265.1.2 写日志文件1275.1.3 读写XML文件1285.1.4 读写Json文件1305.1.5 读写CSV文件1315.1.6 读写PKL文件1325.1.7 读写HDF5文件1335.1.8 读写Excel文件134 5.2 读写数据库1355.2.1 数据库基本操作1365.2.2 Python存取MySQL数据库1385.2.3 Python存取SQL Server数据库1405.2.4 Python存取Sqlite数据库1435.2.5 Python存取Dbase数据库1435.3 读写数据仓库1445.3.1 读取ElasticSearch数据1445.3.2 读取S3云存储数据1465.3.3 读取Hive数据1485.4 获取网络数据1515.4.1 从网络接口读取数据1515.4.2 抓取网站数据1525.4.3 使用POST方法抓取数据1535.4.4 转换HTML文件1535.5 选择数据存储方式154第6章 数据预处理1556.1 数据类型识别与转换1556.1.1 基本类型转换1566.1.2 数据类型识别1576.2 数据清洗1586.2.1 缺失值处理1586.2.2 异常值处理1606.2.3 去重处理1626.3 数据归约1636.3.1 经验筛选特征1636.3.2 统计学方法筛选特征1636.3.3 模型筛选特征1646.3.4 数学方法降维1656.4 数据抽样1666.4.1 简单随机抽样1676.4.2 系统抽样1686.4.3 分层抽样1686.4.4 整群抽样1686.5 数据组合1696.5.1 merge函数1696.5.2 concat函数1706.6 特征提取1716.6.1 数值型特征1716.6.2 分类型特征1716.6.3 字符型特征172第7章 数据分析1757.1 入门实例1757.2 假设检验1777.2.1 基本概念1777.2.2 假设检验的步骤1787.2.3 统计分析工具1787.3 参数检验与非参数检验1797.3.1 正态性检验1797.3.2 方差齐性检验1817.3.3 分析检验结果1827.4 T检验1827.4.1 单样本T检验1827.4.2 独立样本T检验183 7.4.3 配对样本T检验1837.5 方差分析1847.6 秩和检验1857.7 卡方检验1867.8 相关性分析1877.8.1 图形描述相关性1887.8.2 正态资料的相关分析1897.8.3 非正态资料的相关分析1907.9 变量分析1907.9.1 单变量分析1907.9.2 多变量分析1917.10 TableOne工具1937.11 统计方法总结194第8章 机器学习基础知识1968.1 基本概念1968.1.1 深度学习、机器学习、人工智能1978.1.2 有监督学习、无监督学习、半监督学习1978.1.3 训练集、验证集、测试集1988.1.4 过拟合与欠拟合1988.1.5 常用术语1998.2 评价模型1998.2.1 方差、协方差、协方差矩阵2008.2.2 距离与范数2048.2.3 回归效果评估2078.2.4 分类效果评估210第9章 机器学习模型与工具2169.1 基于距离的算法2179.1.1 K近邻算法2179.1.2 聚类算法2199.2 线性回归与逻辑回归2219.2.1 线性回归2229.2.2 逻辑回归2259.3 支持向量机2269.4 信息熵和决策树2309.4.1 信息量和熵2319.4.2 决策树2349.5 关联规则2369.5.1 Apriori关联规则2379.5.2 FP-Growth关联分析2409.6 贝叶斯模型2429.6.1 贝叶斯公式2429.6.2 朴素贝叶斯算法2449.6.3 贝叶斯网络2489.7 隐马尔可夫模型2509.8 集成算法2540章 模型选择与相关技术25910.1 数据准备与模型选择25910.1.1 预处理25910.1.2 选择模型26010.2 自动机器学习框架26310.2.1 框架原理26310.2.2 Auto-Sklearn26410.2.3 Auto-ML26610.2.4 Auto-Keras267 10.3 自然语言处理26910.3.1 分词工具26910.3.2 TF-IDF27110.4 建模相关技术27410.4.1 切分数据集与交叉验证27410.4.2 模型调参27610.4.3 学习曲线和验证曲线27910.4.4 保存模型2821章 大数据竞赛平台28311.1 定义问题28311.1.1 强人工智能与弱人工智能28411.1.2 Datathon竞赛28511.2 算法竞赛28611.2.1 大数据竞赛平台优势28711.2.2 Kaggle大数据平台28811.2.3 实战泰坦尼克号幸存问题28811.2.4 国内大数据平台29411.2.5 赛题选择29411.2.6 比赛注意事项2952章 决策问题:幸福感挖掘29612.1 赛题解读29612.2 模型初探29712.3 模型调优29912.3.1 模型粗调29912.3.2 模型精调30012.4 模型输出30512.4.1 显示决策树30512.4.2 特征重要性30612.5 XGBoost模型30712.5.1 XGBoost参数分析30712.5.2 XGBoost原理解析30812.5.3 XGBoost源码分析3123章 迁移学习:猫狗图片分类31713.1 深度学习神经网络31713.1.1 深度学习31813.1.2 卷积神经网络31913.1.3 卷积神经网络发展史32113.2 使用现有的神经网络模型32113.3 迁移学习32213.4 解决猫狗分类问题32313.4.1 数据及代码结构32313.4.2 提取特征32413.4.3 训练模型和预测32513.4.4 训练结果分析32613.4.5 代码下载3274章 图像分割:识别图中物体32814.1 Mask R-CNN算法32914.1.1 R-CNN32914.1.2 SPP Net33014.1.3 Fast R-CNN33014.1.4 Faster R-CNN33114.1.5 Mask R-CNN33214.2 Mask R-CNN源码解析33214.2.1 安装工具33214.2.2 源码结构33314.3 训练模型与预测33414.3.1 制作训练数据33514.3.2 训练模型和预测33814.3.3 建模相关问题3445章 时间序列分析34615.1 时序问题处理流程34615.1.1 分析问题34615.1.2 解决思路34715.2 趋势分析工具ARIMA34915.2.1 相关概念34915.2.2 模型示例35315.3 傅里叶和小波变换35715.3.1 傅里叶变换35815.3.2 小波变换36015.4 Prophet时序模型36115.4.1 模型介绍36215.4.2 获取数据36215.4.3 模型示例3636章 自然语言处理:微博互动预测36716.1 赛题分析36716.1.1 数据分析36816.1.2 评价函数36916.1.3 目标变量分布37016.1.4 发博用户统计37116.1.5 特殊用户分析37116.1.6 整体分析37216.2 中文分析37216.2.1 正则表达式37316.2.2 自动提取关键词376 内容推荐 本书结合作者十余年软件开发、系统架构、算法实战及培训经验,致力于系统地阐释Python大数据和机器学习技术。从数据的采集、存储、清洗;到建立模型、统计分析;很终用前端程序呈现给用户的数据展示;以及后台的系统服务支持。结合了Python数据工具使用、算法原理、以及典型实例各个层面,希望读者通过对本书的阅读,少走弯路,以很小的学习成本得到优选的知识收益。 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。