![]()
内容推荐 本书介绍了如何使用Python实现企业级的大数据全栈式开发、设计和编程工作,涉及的知识点包括数据架构整体设计、数据源和数据采集、数据同步、消息队列、关系数据库、NoSQL数据库、批处理、流处理、图计算、人工智能、数据产品开发。 本书既深入浅出地介绍了不同技术组件的基本原理,又通过详细对比介绍了如何根据不同场景选择最佳实践技术方案,并通过代码实操帮助读者快速掌握常用技术的应用过程,最后通过项目案例介绍了如何将所学知识应用于实际业务场景中。 本书适合高等院校的在校学生、数据运营人员、Python开发者,以及希望转型为Python开发者的读者使用。 作者简介 宋天龙(Tony Song),大数据技术专家,触脉咨询合伙人兼副总裁,前Webtrekk中国区技术和咨询负责人(Webtrekk,德国最大的在线数据分析服务提供商)。擅长数据挖掘、建模、分析与运营,精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。在电子商务、零售、银行、保险等多个行业拥有丰富的数据项目工作经验,参与过集团和企业级数据体系规划、DMP与数据仓库建设、大数据产品开发、网站流量系统建设、个性化智能推荐与精准营销、企业大数据智能等。参与实施客户案例包括联合利华、Webpower、德国OTTO集团电子商务(中国)、Esprit中国、猪八戒网、顺丰优选、乐视商城、泰康人寿、酒仙网、国美在线、迪信通等。 著有多部畅销书: 《Python数据分析与数据化运营》 《网站数据挖掘与分析:系统方法与商业实践》 《企业大数据系统构建实战:技术、架构、实施与应用》 目录 第1章 数据架构整体设计 1.1 数据架构概述 1.2 数据架构设计的8个考虑因素 1.2.1 适用性 1.2.2 延伸性 1.2.3 安全性 1.2.4 易用性 1.2.5 高性能 1.2.6 成本限制 1.2.7 应用需求 1.2.8 运维管理 1.3 数据架构设计的4个核心内容 1.3.1 物理架构 1.3.2 逻辑架构 1.3.3 技术架构 1.3.4 数据流架构 1.4 常见的6种数据架构 1.4.1 简单数据库支撑的数据架构 1.4.2 传统数仓支撑的数据架构 1.4.3 传统大数据架构 1.4.4 流式大数据架构 1.4.5 流批一体大数据架构 1.4.6 存算分离的流批一体大数据架构 1.5 案例:某B2B企业的数据架构选型 1.5.1 企业背景 1.5.2 应用预期 1.5.3 数据现状 1.5.4 选型分析 1.5.5 选型方案 1.5.6 未来拓展 1.6 常见问题 第2章 数据源和数据采集 2.1 数据源概述 2.1.1 常见的3种数据类型 2.1.2 常见的8种数据源 2.2 企业内部流量数据采集技术选型 2.2.1 企业内部流量数据采集常用的技术 2.2.2 内部流量数据采集技术选型的因素 2.2.3 内部流量数据采集技术选型总结 2.3 企业外部互联网数据采集技术选型 2.3.1 外部互联网数据采集常用的4种技术 2.3.2 外部互联网数据采集技术选型的5个因素 2.3.3 外部互联网数据采集技术选型总结 2.4 使用Requests+BeautifulSoup抓取数据并写入Sqlite 2.4.1 安装配置 2.4.2 基本示例 2.4.3 高级用法 2.4.4 技术要点 2.5 使用Scrapy+XPath抓取数据并写入MongoDB 2.5.1 安装配置 2.5.2 基本示例 2.5.3 高级用法 2.5.4 技术要点 2.6 案例:某B2C电商企业的数据源结构 2.6.1 企业背景 2.6.2 业务系统 2.6.3 数据源结构 2.7 常见问题 第3章 数据同步 3.1 数据同步概述 3.1.1 数据同步的3种模式 3.1.2 数据同步的5种预处理技术 3.2 数据同步的技术选型 3.2.1 数据同步的7种技术 …… 第4章 消息队列 第5章 关系数据库 第6章 NoSQL数据库 第7章 批处理 第8章 流处理 第9章 图计算 第10章 人工智能 第11章 数据产品开发 附录A Docker安装使用 附录B 使用EMR搭建Hadoop大数据集群 |