网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | PYTHON数据分析项目全程实录 |
分类 | 教育考试-考试-计算机类 |
作者 | 明日科技 |
出版社 | 清华大学出版社 |
下载 | |
简介 | 内容推荐 《Python数据分析项目全程实录》精选不同行业、不同分析方法以及机器学习等方向的12个热门Python数据分析项目。这些项目既可以作为练手项目,也可以应用于实际数据分析工作中,其中的机器学习还可作为参赛项目的参考。总体来说,这些项目的实用性都非常强。具体项目包含:热销产品销售数据统计分析、篮坛薪酬揭秘:球员位置与薪资数据的深度分析、股海秘籍:股票行情数据分析之旅、京东某商家的销售评价数据分析、商城注册用户数据探索分析、自媒体账号内容数据分析、汽车数据可视化与相关性分析、抖音电商数据分析系统、会员数据化运营RFM分析实战、商超购物Apriori关联分析、基于K-Means算法实现鸢尾花聚类分析、电视节目数据分析系统。本书从数据分析、机器学习的角度出发,按照项目开发的顺序,系统、全面地讲解每一个项目的开发实现过程。体例上,每章一个项目,统一采用“开发背景→系统设计→技术准备→各功能模块实现→项目运行→源码下载”的形式完整呈现项目,给读者明确的成就感,可以让读者快速积累实际数据分析经验与技巧,早日实现就业目标。 目录 第1章 热销产品销售数据统计分析 1 ——pandas + numpy + matplotlib + ABC分类法 1.1 开发背景 1 1.2 系统设计 2 1.2.1 开发环境 2 1.2.2 分析流程 2 1.2.3 功能结构 2 1.3 技术准备 3 1.3.1 技术概览 3 1.3.2 ABC分类法 3 1.4 前期工作 4 1.4.1 开发环境设置 4 1.4.2 安装第三方模块 5 1.4.3 新建项目目录 5 1.4.4 数据准备 5 1.5 数据预处理 6 1.5.1 查看数据信息 6 1.5.2 缺失性分析 8 1.5.3 描述性统计分析 9 1.6 数据统计分析 10 1.6.1 月销售趋势分析 10 1.6.2 热销产品分析(ABC分类法) 12 1.6.3 热销单品环比增长情况分析 14 1.6.4 加购人数和购买数量分析 16 1.6.5 不同种类产品的销量占比情况分析 17 1.6.6 工作日与周末销量对比分析 19 1.7 项目运行 21 1.8 源码下载 22 第2章 篮坛薪酬揭秘:球员位置与薪资数据的深度分析 23 ——pandas + numpy + matplotlib + seaborn 2.1 开发背景 24 2.2 系统设计 24 2.2.1 开发环境 24 2.2.2 分析流程 24 2.2.3 功能结构 25 2.3 技术准备 25 2.3.1 技术概览 25 2.3.2 详解read_htlm()获取网页数据全过程 25 2.3.3 应用lambda函数快速处理数据 26 2.4 数据准备 27 2.4.1 数据集介绍 27 2.4.2 确定网页数据的结构 28 2.4.3 获取当前数据 29 2.5 数据预处理 30 2.5.1 查看数据 30 2.5.2 数据清洗 31 2.5.3 获取并处理历史数据 33 2.6 基本统计分析 34 2.6.1 2024赛季球员的薪资排行TOP10 34 2.6.2 统计分析各个球队的薪资状况 36 2.6.3 勇士队球员的薪资状况分析 37 2.6.4 箱形图分析实力和战绩TOP5球队的薪资状况 39 2.6.5 对比分析2023—2024赛季各球队薪资变化 41 2.7 深度分析 42 2.7.1 球员薪资分布密度图 42 2.7.2 分析不同位置球员的薪资状况 43 2.7.3 分析球员位置和薪资的关系 45 2.8 项目运行 46 2.9 源码下载 47 第3章 股海秘籍:股票行情数据分析之旅 48 ——tushare + pandas + matplotlib + numpy + mplfinance 3.1 开发背景 49 3.2 系统设计 49 3.2.1 开发环境 49 3.2.2 分析流程 49 3.2.3 功能结构 50 3.3 技术准备 50 3.3.1 技术概览 50 3.3.2 详解tushare模块获取股票数据 50 3.3.3 mplfinance模块的应用 53 3.4 前期准备 56 3.4.1 新建Jupyter Notebook文件 56 3.4.2 导入必要的库 58 3.4.3 获取股票行情数据 58 3.5 数据加载与预处理 59 3.5.1 数据加载与处理 59 3.5.2 数据查看与缺失性分析 59 3.5.3 描述性统计分析 60 3.5.4 抽取特征数据 61 3.5.5 异常值分析 61 3.5.6 数据归一化处理 61 3.6 数据统计分析 63 3.6.1 可视化股票走势图 63 3.6.2 股票成交量时间序列图 63 3.6.3 股票收盘价与成交量分析 64 3.6.4 股票涨跌情况分析 65 3.6.5 股票k线走势图 66 3.7 股票指标相关性分析 67 3.7.1 散点图矩阵分析 67 3.7.2 相关系数分析 68 3.8 项目运行 70 3.9 源码下载 71 第4章 京东某商家的销售评价数据分析 72 ——pandas + numpy + jieba + matplotlib + pyecharts + snownlp 4.1 开发背景 72 4.2 系统设计 73 4.2.1 开发环境 73 4.2.2 分析流程 73 4.2.3 功能结构 73 4.3 技术准备 74 4.3.1 技术概览 74 4.3.2 详解jieba模块 74 4.3.3 绘制词云图 78 4.3.4 snownlp模块的应用 80 4.4 前期准备 82 4.4.1 安装第三方模块 82 4.4.2 新建Jupyter Notebook文件 82 4.4.3 导入必要的库 84 4.4.4 数据加载 84 4.5 数据预处理 84 4.5.1 查看数据 84 4.5.2 缺失性分析 85 4.5.3 数据处理 86 4.5.4 缺失值处理 87 4.5.5 数据类型转换 87 4.6 用户维度分析 88 4.6.1 总体评价状况分析 88 4.6.2 词云图分析差评用户 89 4.6.3 正负面情感对比分析 90 4.6.4 评价数量和评价时间的关系分析 91 4.7 商品维度分析 93 4.7.1 差评商品分析 93 4.7.2 各评价级别商品件数分析 93 4.8 项目运行 94 4.9 源码下载 95 第5章 商城注册用户数据探索分析 96 ——MySQL + sqlalchemy + pandas + matplotlib 5.1 开发背景 97 5.2 系统设计 97 5.2.1 开发环境 97 5.2.2 分析流程 97 5.2.3 功能结构 97 5.3 技术准备 98 5.3.1 技术概览 98 5.3.2 详解sqlalchemy模块 98 5.3.3 数据类型转换两个核心方法 102 5.3.4 fill_between()函数的应用 102 5.4 导入MySQL数据 103 5.5 数据预处理 105 5.5.1 数据准备 105 5.5.2 sqlalchemy连接MySQL数据库 105 5.5.3 数据检测与处理 106 5.6 用户注册情况分析 107 5.6.1 年度注册用户分析 107 5.6.2 月度注册用户分析 109 5.6.3 小时注册用户分析 110 5.6.4 新注册用户分析 112 5.7 用户活跃情况分析 113 5.7.1 用户登录情况分析 113 5.7.2 用户登录周情况分析 114 5.7.3 用户登录时段分析(工作日) 116 5.7.4 用户登录时段分析(非工作日) 117 5.8 项目运行 118 5.9 源码下载 119 第6章 自媒体账号内容数据分析 120 ——pandas + matplotlib + plotly 6.1 开发背景 120 6.2 系统设计 121 6.2.1 开发环境 121 6.2.2 分析流程 121 6.2.3 功能结构 121 6.3 技术准备 122 6.3.1 技术概览 122 6.3.2 pandas查看数据类型 122 6.3.3 详解to_datetime()函数转换时间序列数据 123 6.4 前期准备 125 6.4.1 安装第三方模块 125 6.4.2 新建Jupyter Notebook文件 126 6.4.3 导入必要的库 127 6.4.4 数据准备 127 6.4.5 数据预览 128 6.5 数据预处理 129 6.5.1 数据合并 129 6.5.2 查看数据 130 6.5.3 数据类型转换 130 6.5.4 描述性统计分析 131 6.6 数据统计分析 133 6.6.1 各类别内容阅读人数的集中趋势分析 133 6.6.2 各类别内容数量占比分析 134 6.6.3 箱形图分析各类别内容的阅读人数 135 6.6.4 水平柱形图分析平均展现量 136 6.6.5 箱形图分析内容展现量 137 6.6.6 内容展现量和阅读量的相关性分析 138 6.7 项目运行 139 6.8 源码下载 140 第7章 汽车数据可视化与相关性分析 141 ——pandas + matplotlib + seaborn 7.1 开发背景 141 7.2 系统设计 142 7.2.1 开发环境 142 7.2.2 分析流程 142 7.2.3 功能结构 142 7.3 技术准备 143 7.3.1 技术概览 143 7.3.2 盘点seaborn自带的数据集 143 7.3.3 value_counts()方法的应用 147 7.3.4 详解pairplot()函数 147 7.4 前期准备 153 7.4.1 新建项目目录 153 7.4.2 数据准备 153 7.5 数据预处理 154 7.5.1 查看数据 154 7.5.2 缺失值查看与处理 155 7.5.3 描述性统计分析 156 7.6 数据统计分析 156 7.6.1 汽车产地占比情况分析 156 7.6.2 品牌旗下汽车差异情况分析 157 7.7 相关性分析 159 7.7.1 矩阵图分析相关性 159 7.7.2 相关系数分析相关性 160 7.7.3 散点图分析气缸数和马力之间的关系 160 7.7.4 折线图分析气缸数和油耗之间的关系 161 7.7.5 产地和油耗之间的关系 162 7.7.6 车型生产年份和油耗之间的关系 163 7.7.7 油耗、马力和重量之间的关系 164 7.8 项目运行 165 7.9 源码下载 166 第8章 抖音电商数据分析系统 167 ——pandas + numpy + pyecharts 8.1 开发背景 168 8.2 系统设计 168 8.2.1 开发环境 168 8.2.2 分析流程 168 8.2.3 功能结构 169 8.3 技术准备 169 8.3.1 技术概览 169 8.3.2 pandas数据美化样式汇总 169 8.3.3 eq()方法详解 172 8.4 前期准备 173 8.4.1 数据准备 173 8.4.2 新建Jupyter Notebook文件 173 8.4.3 导入必要的库 175 8.5 数据预处理 176 8.5.1 查看数据 176 8.5.2 突出显示数据 176 8.5.3 0值检测与处理 177 8.5.4 数据类型转换 177 8.5.5 描述性统计分析 178 8.6 成交数据分析 179 8.6.1 整体情况分析 179 8.6.2 自营/带货订单量分析 179 8.6.3 不同载体订单量分析 180 8.6.4 每日订单量分析 181 8.6.5 商品成交金额分析 182 8.6.6 新老客户成交额对比分析 183 8.7 主播数据分析 184 8.7.1 引流能力分析 184 8.7.2 互动能力分析 185 8.7.3 吸粉能力分析 186 8.7.4 UV价值分析 186 8.8 项目运行 187 8.9 源码下载 188 第9章 会员数据化运营RFM分析实战 189 ——RFM模型+pandas+matplotlib+seaborn 9.1 开发背景 189 9.2 系统设计 190 9.2.1 开发环境 190 9.2.2 分析流程 190 9.2.3 功能结构 190 9.3 技术准备 191 9.3.1 技术概览 191 9.3.2 RFM模型 191 9.3.3 随机抽取数据的sample()方法 192 9.3.4 深度解读直方图(histplot()函数) 193 9.4 前期工作 200 9.4.1 新建项目目录 200 9.4.2 数据准备 200 9.5 数据预处理 201 9.5.1 数据预览 201 9.5.2 缺失性分析 202 9.5.3 描述性统计分析 202 9.5.4 数据处理 203 9.5.5 计算RFM值 204 9.6 数据统计分析 205 9.6.1 消费周期分析 205 9.6.2 消费频次分析 206 9.6.3 消费金额分析 206 9.7 会员群体分析 208 9.7.1 RFM模型指标打分 208 9.7.2 会员群体划分 209 9.8 项目运行 210 9.9 源码下载 211 第10章 商超购物Apriori关联分析 212 ——pandas + matplotlib + Apriori关联分析 + mlxtend 10.1 开发背景 212 10.2 系统设计 213 10.2.1 开发环境 213 10.2.2 分析流程 213 10.2.3 功能结构 213 10.3 技术准备 214 10.3.1 技术概览 214 10.3.2 Apriori关联分析 214 10.3.3 详解mlxtend模块 215 10.4 前期工作 220 10.4.1 新建项目目录 220 10.4.2 数据准备 221 10.5 数据预处理 221 10.5.1 查看数据 221 10.5.2 转换交易日期类型 222 10.5.3 重复值检测与处理 223 10.6 数据统计分析 223 10.6.1 上半年成交金额分析 223 10.6.2 上半年客单价分析 225 10.6.3 顾客客单价占比分析 226 10.7 购物关联分析 227 10.7.1 统计顾客所购买的商品 227 10.7.2 数据one-hot编码 228 10.7.3 Apriori关联分析 229 10.8 项目运行 230 10.9 源码下载 231 第11章 基于K-Means算法实现鸢尾花聚类分析 232 ——seaborn + pandas + matplotlib + numpy + scikit-learn 232 11.1 开发背景 233 11.2 系统设计 233 11.2.1 开发环境 233 11.2.2 分析流程 233 11.2.3 功能结构 234 11.3 技术准备 234 11.3.1 技术概览 234 11.3.2 numpy模块补充知识点 234 11.3.3 深入了解机器学习sklearn模块 237 11.3.4 训练集和测试集划分函数train_test_split()的全面解读 240 11.3.5 模型评估(calinski_harabasz_score()方法) 242 11.4 前期工作 242 11.4.1 安装第三方库 242 11.4.2 新建项目目录 243 11.4.3 认识鸢尾花 243 11.4.4 了解鸢尾花数据集iris 244 11.5 数据预处理 244 11.5.1 加载数据 244 11.5.2 查看数据 245 11.5.3 查看鸢尾花种类 245 11.5.4 描述性统计分析 245 11.5.5 随机抽样 246 11.6 数据统计分析 247 11.6.1 鸢尾花花瓣长度TOP10 247 11.6.2 使用箱形图分析鸢尾花花瓣的长度 248 11.6.3 最常见的鸢尾花花瓣长度 249 11.6.4 直方图分析鸢尾花花瓣长度 250 11.7 相关性分析 251 11.7.1 相关系数分析 251 11.7.2 各特征之间关系矩阵图 252 11.7.3 散点图分析鸢尾花花瓣长度和宽度的关系 253 11.7.4 散点图分析鸢尾花花萼长度和宽度的关系 254 11.7.5 鸢尾花的线性关系分析 255 11.8 鸢尾花聚类分析 256 11.8.1 抽取特征数据 256 11.8.2 划分训练集和测试集 256 11.8.3 基于K-Means算法创建聚类模型 256 11.8.4 聚类模型评估 258 11.8.5 预测鸢尾花种类 258 11.9 项目运行 258 11.10 源码下载 259 第12章 电视节目数据分析系统 260 ——Qt Designer + PyQt5 + pandas + pyecharts 12.1 开发背景 260 12.2 系统设计 261 12.2.1 开发环境 261 12.2.2 分析流程 261 12.2.3 功能结构 261 12.3 技术准备 262 12.3.1 技术概览 262 12.3.2 可视化设计环境安装与配置 262 12.3.3 Qt Designer入门 264 12.3.4 PyQt5入门知识点总结 267 12.4 前期工作 272 12.4.1 新建项目目录 272 12.4.2 数据准备 273 12.5 主窗体界面 274 12.5.1 功能草图 274 12.5.2 创建主窗体 274 12.5.3 工具栏 275 12.5.4 其他控件 277 12.5.5 将.ui文件转换为.py文件 278 12.6 数据预处理 279 12.6.1 数据预览 279 12.6.2 查看数据 280 12.6.3 描述性统计分析 280 12.7 数据统计分析 281 12.7.1 数据连接模块 281 12.7.2 数据分析及可视化模块 281 12.7.3 显示主窗体模块 284 12.8 项目运行 286 12.9 源码下载 286 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。