![]()
内容推荐 在人工智能时代,不论是否从事大数据开发,掌握大数据的原理和架构早已成为每个工程师的必备技能。本书结合作者多年大数据开发、应用的经验,深入浅出地阐述大数据的完整知识体系,帮助读者从不同视角找到大数据方向的突破口,真正从普通开发者晋升为拥有大数据思维并能解决复杂问题的技术专家。 本书一共分为7章,分别是大数据的前世今生与应用场景、Hadoop大数据原理与架构、大数据生态体系主要产品原理与架构、大数据开发实践、大数据平台与系统集成、大数据分析与运营、大数据算法与机器学习。 本书既可作为初学者了解大数据技术的入门指南,也可作为有一定经验的工程师深入理解大数据思维的有益参考。 作者简介 李智慧,资深架构专家,同程旅行交通首席架构师,曾在NEC、阿里巴巴、Intel等知名企业担任架构师,也曾在WiFi万能钥匙等企业担任CTO。 长期从事大数据、大型网站的架构和研发工作,领导设计过多个日活用户在千万级以上的互联网系统架构,实战经验丰富。曾设计、开发过Web服务器防火墙、分布式NoSQL系统、大数据仓库引擎、反应式编程框架等各种类型的软件系统。 Apache Spark代码贡献者,腾讯云TVP,著有畅销书《大型网站技术架构》,同时也是极客时间《从0开始学大数据》《后端技术面试38讲》等专栏的作者。 目录 1 大数据的前世今生与应用场景 大数据的前世今生:大数据简史与大数据生态体系概述 从搜索引擎到人工智能:大数据应用发展史 大数据应用的搜索引擎时代 大数据应用的数据仓库时代 大数据应用的数据挖掘时代 大数据应用的机器学习时代 数据驱动一切:大数据全领域应用场景分析 大数据在医疗健康领域的应用 大数据在社交媒体领域的应用 大数据在金融领域的应用 大数据在新零售领域的应用 大数据在交通领域的应用 2 Hadoop大数据原理与架构 移动计算比移动数据更划算 从RAID看垂直伸缩到水平伸缩的演化 新技术层出不穷,HDFS依然是存储的王者 为什么说MapReduce既是编程模型又是计算框架 MapReduce如何让数据完成一次旅行 MapReduce作业启动和运行机制 MapReduce数据合并与连接机制 为什么把Yarn称为资源调度框架 程序员应该如何学好大数据技术 3 大数据生态体系主要产品原理与架构 Hive是如何让MapReduce实现SQL操作的 用MapReduce实现SQL数据分析的原理 Hive的架构 Hive如何实现join操作 人们并没有觉得MapReduce速度慢,直到Spark出现 同样的本质,为何Spark可以更高效 Spark的计算阶段 Spark的作业管理 Spark的执行过程 BigTable的开源实现:HBase HBase可伸缩架构 HBase可扩展数据模型 HBase的高性能存储 流式计算的代表:Storm、Spark Streaming、Flink Storm Spark Streaming Flink ZooKeeper是如何保证数据一致性的 分布式一致性原理 Paxos算法与ZooKeeper架构 大数据技术应用场景分析 4 大数据开发实践 如何自己开发一个大数据SQL引擎 Panthera架构 Panthera的SQL语法转换 比如这条SQL Panthera程序设计 Spark的性能优化案例分析 Apache开源社区的组织和参与方式 软件性能优化 大数据开发的性能优化 Spark性能优化 案例1:Spark任务文件初始化调优 案例2:Spark任务调度优化 案例3:Spark应用配置优化 案例4:操作系统配置优化 案例5:硬件优化 大数据基准测试可以带来什么好处 大数据基准测试的应用 大数据基准测试工具HiBench 从大数据性能测试工具Dew看如何快速开发大数据系统 Dew设计与开发 Akka的原理与应用 大数据开发实践的启示 5 大数据平台与系统集成 大数据平台=互联网产品+大数据产品 数据采集 数据处理 数据输出与展示 大数据任务调度 大数据平台Lamda架构 数据在大数据平台中的流转 大数据从哪里来 从数据库导入 从日志文件导入 前端埋点采集 爬虫系统 数据的熵 知名大厂如何搭建大数据平台 淘宝大数据平台 美团大数据平台 滴滴大数据平台 学架构就是学架构模式 盘点可供中小企业参考的商业大数据平台 大数据解决方案提供商 大数据云计算服务商 大数据SaaS服务商 大数据开放平台 当大数据遇上物联网 物联网应用场景分析 物联网平台架构 大数据技术在物联网中的应用 6 大数据分析与运营 老板想要监控什么运营指标 互联网运营的常用数据指标 数据可视化图表与数据监控 一个用户新增下降的数据分析案例 数据分析案例 数据分析方法 A/B测试与灰度发布必知必会 A/B测试的过程 A/B测试的系统架构 灰度发布 如何利用大数据成为“增长黑客” Hotmail的增长黑客故事 AARRR用户增长模型 利用大数据增长用户数量 为什么说数据驱动运营 7 大数据算法与机器学习 如何对数据进行分类和预测 k近邻分类算法 数据的距离 文本的特征值 贝叶斯分类 如何发掘数据的关系 搜索排序 关联分析 聚类 如何预测用户的喜好 基于人口统计的推荐 基于商品属性的推荐 基于用户的协同过滤推荐 基于商品的协同过滤推荐 机器学习的数学原理是什么 样本 模型 算法 为什么学机器学习要学数学 从感知机到神经网络 感知机 神经网络 |