内容推荐 本书以企业实际开发需求为依据,由浅入深地讲解技术知识。作者通过参考数百条企业发布的用人需求,精心整理,旨在解决企业用人需求的同时让读者对数据分析产生浓厚的兴趣,通过快乐学习的方式,达到高薪就业的目的。 全书共11章。前5章主要讲述Python在数据分析领域的应用与常用拓展库的使用,包括数据分析概述、IPython的使用、NumPy的使用、Pandas的使用、Matplotlib的使用;第6~10章主要讲述Python在数据分析领域的高级进阶操作,包括时间序列分析、数据处理的基本手段、基于文本的自然语言分析、Scikit-Learn数据建模、数据可视化进阶;最后一章为实际案例,通过千锋教育的就业分析案例巩固前面所学内容。望读者勤加练习,早日成为技术全面的数据分析师。 本书主要面向数据分析小白、数据分析中级工程师等致力于数据分析方向的读者,包括高等院校及培训学校的老师和学生,是学习Python数据分析开发技术的必读之作。 目录 第1章 数据分析概述 1.1 初步认识数据分析 1.2 数据分析的基本流程 1.3 Python数据分析的工具 1.4 Jupyter Notebook的基本使用 1.4.1 下载与安装 1.4.2 功能界面 1.4.3 工作原理 1.4.4 基本使用 1.4.5 高级操作 小结 习题 第2章 IPython的使用 2.1 IPython基础 2.1.1 IPython简介 2.1.2 IPython使用技巧 2.1.3 IPython魔术命令 2.2 IPython中的开发工具 2.2.1 调试器 2.2.2 性能分析 小结 习题 第3章 NumPy的使用 3.1 数组的使用 3.1.1 数组的创建 3.1.2 数组的属性 3.1.3 数组的运算 3.1.4 数组的索引 3.1.5 数组的变换 3.2 矩阵的使用 3.2.1 矩阵的创建 3.2.2 矩阵的合并 3.2.3 矩阵的运算 3.2.4 矩阵的属性 3.3 NumPy实用技巧 3.3.1 通用函数的使用 3.3.2 数据的保存和读取 3.3.3 随机数生成 3.3.4 NumPy与数据统计 小结 习题 第4章 Pandas的使用 4.1 Pandas的数据结构 4.1.1 Series对象的创建 4.1.2 Series对象的属性 4.1.3 DataFrame对象的创建 4.1.4 DataFrame对象的属性 4.2 Pandas的索引对象 4.2.1 Series索引的基本使用 4.2.2 重建索引 4.2.3 索引的基本选取和过滤 4.3 Pandas的基本计算 4.3.1 算术运算和数据对齐 4.3.2 自定义函数 4.3.3 排序 4.3.4 重复索引的基本使用 4.4 Pandas的统计功能 4.4.1 统计使用的基本函数 4.4.2 常用统计方法 4.5 Pandas的数据缺陷处理 4.5.1 dropna处理Series数据缺陷 4.5.2 dropna处理DataFrame数据缺陷 4.5.3 fill进行数据添加 4.6 Pandas的层次化索引 4.6.1 基本创建 4.6.2 重排分级 4.6.3 根据级别进行汇报 4.6.4 DataFrame数据列的使用 4.7 Pandas的文件读取 4.7.1 读取/存储Excel文件 4.7.2 读取/存储CSV文件 4.7.3 读写数据库 4.7.4 读取HDF5文件 小结 习题 第5章 Matplotlib的使用 5.1 Matplotlib绘图流程 5.2 Matplotlib基本使用 5.2.1 创建画布 5.2.2 添加子图 5.2.3 规定刻度与标签 5.2.4 添加图例 5.2.5 显示 5.3 Matplotlib常用技巧 5.3.1 配置文件 5.3.2 rc参数的基本配置 5.3.3 中文显示配置 5.4 Matplotlib基本图形 5.4.1 Matplotlib绘制散点图 5.4.2 Matplotlib绘制直方图 5.4.3 Matplotlib绘制饼状图 5.4.4 Matplotlib绘制折线图 5.4.5 Matplotlib绘制箱型图 小结 习题 第6章 时间序列分析 6.1 时间对象——Timestamp 6.1.1 创建时间戳 6.1.2 指定与转换时区 6.1.3 最小时间/最大时间 6.1.4 常用属性 6.2 时间对象——Period 6.2.1 Period对象的创建 6.2.2 Period对象的属性 6.2.3 Period对象的方法 6.3 时间对象——Timedelta 6.3.1 Timedelta对象的创建 6.3.2 Timedelta对象的属性 6.3.3 Timedelta对象的方法 6.3.4 时间间隔的基本运算 6.4 DateTimeIndex对象 6.4.1 DateTimeIndex对象的创建 6.4.2 DateTimeIndex对象的属性 6.4.3 DateTimeIndex对象的方法 6.5 PeriodIndex对象 6.5.1 PeriodIndex对象的创建 6.5.2 PeriodIndex对象的属性 6.5.3 PeriodIndex对象的方法 6.6 TimedeltaIndex对象 6.6.1 TimedeltaIndex对象的创建 6.6.2 TimedeltaIndex对象的属性 6.6.3 TimedeltaIndex对象的方法 6.7 采样 6.7.1 采样的基本方法 6.7.2 降采样 6.7.3 升采样 小结 习题 第7章 数据处理的基本手段 7.1 合并数据集 7.1.1 主键合并数据 7.1.2 轴向数据合并 7.1.3 重叠数据的合并 7.1.4 索引键的合并 7.2 数据清洗 7.2.1 重复值的处理 7.2.2 异常值的处理 7.2.3 缺失值的处理 7.3 数据标准化 7.3.1 最小-最大标准化 7.3.2 Z-score标准化 7.3.3 按小数定标标准化 7.4 数据类型的转换 7.4.1 离散化连续数据 7.4.2 哑变量处理类型数据 小结 习题 第8章 基于文本的自然语言分析 8.1 基于文本的自然语言处理概述 8.2 Jieba基本介绍和使用 8.2.1 基本介绍 8.2.2 安装 8.2.3 基本使用 8.3 NLTK的基本介绍和使用 8.3.1 NLTK的基本介绍 8.3.2 NLTK的安装 8.3.3 NLTK基本使用 8.4 文本相似度 8.4.1 相似度分析 8.4.2 基于NLTK的文本相似度分析 8.4.3 基于Gensim的文本相似度 序言 在瞬息万变的IT时代, 一群怀揣梦想的人创办了千 锋教育,投身到IT培训行业 。多年来,一批批有志青年 加入千锋教育,为了梦想笃 定前行。千锋教育秉承“用 良心做教育”的理念,为培 养顶级IT精英付出一切努力 。为什么会有这样的梦想? 我们先来听一听用人企业和 求职者的心声。 “现在符合企业需求的IT 技术人才非常紧缺,这方面 的优秀人才我们会像珍宝一 样对待,可为什么至今没有 需要的人才出现?” “面试的时候,用人企业 问我们能做什么、这个项目 如何实现、需要多长的时间 ,我们当时都蒙了,回答不 上来。” “这已经是面试过的第10 家公司了,如果再不行,是 不是要考虑转行了?难道大 学都白学了?” “这已经是参加面试的第 N个求职者了,为什么都是 计算机专业,但是问到项目 如何实现时连设计思路都没 有呢?” 这些问题并不是个别的 ,而是中国教育领域的普遍 现象。高校的IT教育与企业 的真实需求存在脱节,如果 高校的相关课程仍然不进行 更新,毕业生将面临难以就 业的困境。许多用人单位表 示,高校毕业生表面上知识 丰富,但这些知识绝大多数 在实际工作中派不上用场。 针对上述问题,国务院也做 出了关于加快发展现代职业 教育的决定,而千锋教育所 做的事情就是配合高校达成 产学合作。 千锋教育在全国范围内 拥有数十家分校、数百名讲 师的团队;致力于打造IT职 业教育全产业链人才服务平 台,坚持“以教学为本”的方 针,采用面对面教学;传授 企业实用技能,教学大纲实 时紧跟企业需求,拥有全国 一体化的就业体系。千锋教 育的价值观是“做真实的自 己,用良心做教育”。 本书针对高校教师的服 务 (1)千锋教育基于多年 的教育培训经验,精心设计 了包含“教材+授课资源+考 试系统+测试题+辅助案例” 的教学资源包,节省教师的 备课时间,缓解教师的教学 压力,显著提高教学质量。 (2)本书配备了千锋教 育优秀讲师录制的教学视频 ,按照本书的知识结构体系 部署到了教学辅助平台(扣 丁学堂)上,可以作为教学 资源使用,也可以作为备课 参考。 高校教师如需索要配套 教学资源,请扫描下方二维 码,关注“扣丁学堂”微信公 众号。 本书针对高校学生的服 务 (1)学IT有疑问,就找 千问千知。千问千知是一个 有问必答的IT社区,平台上 有专业的答疑辅导老师,承 诺在工作时间3小时内答复 学生在IT学习中遇到的专业 问题。读者也可以扫描下方 的二维码,关注“千问千知” 微信公众号,浏览其他学生 在学习中分享的问题和收获 。 (2)学习太枯燥,如果 想了解其他学校的伙伴是怎 样学习的,可以加入扣丁俱 乐部。扣丁俱乐部是千锋教 育联合各高校发起的公益计 划,专门面向对IT感兴趣的 大学生,提供免费的学习资 源和问答服务,已有30万名 学习者获益。 就业难,难就业,千锋 教育让就业不再难! 关于本书 本书既可作为高等院校 本、专科计算机相关专业的 数据分析入门教材,还包含 千锋教育Python数据分析的 全部课程内容,是一本适合 广大计算机编程爱好者的优 秀读物。 抢红包 读者如果需要本书的配 套源代码、习题答案,请添 加小千的QQ号或微信号 2133320438。 注意,小千会随时发放“ 助学金红包”。 致谢 本书由千锋教育高教产 品研发部组织编写,将千锋 教育Python学科多年积累的 实战案例进行整合,通过精 雕细琢最终完成了本书。另 外,多位院校老师参与了本 书的部分编写与指导工作。 除此之外,千锋教育五百多 名学员参与到本书的试读工 作中,他们站在初学者的角 度对本书提出了许多宝贵的 修改建议,在此一并表示衷 心的感谢。 意见反馈 在本书的编写过程中, 虽然编者力求完美,但难免 有不足之处,欢迎各界专家 和读者朋友们给予宝贵意见 。 千锋教育高教产品研发 部 2021年3月 |