2016年,《大数据架构商业之路:从业务需求到技术方案》一书出版后,获得了良好的销售和口碑。同时,不少读者表示对于技术的细节很有兴趣,这也促使黄申下定决心撰写《大数据架构和算法实现之路:电商系统的技术实战》。本书仍然沿用前作的故事背景和应用场景,不过读者对象改为资深的程序员、算法工程师、数据科学家和系统架构师。因此,新作大幅缩减基础知识的详细介绍以及业务需求的逐步分析,直接进入实战的主题,内容包括系统架构、算法设计等,以及重要的代码部分。衷心希望本书能成为读者的良师益友,能帮助读者更加深入地理解电商大数据的实践环节,并对读者所从事的项目有所裨益。
黄申编著的《大数据架构和算法实现之路:电商系统的技术实战》介绍了一些主流些技术在商业项目中的应用,包括:机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念以及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch,Hadoop、HBase、Hive、Flume、Kafka,Storm等系统。和前作不同之处在于,本书完全是面向技术人员,因此提供了大量详尽的实现步骤和代码分析。不过,本书在技术和商业结合方面,仍然和前作保持一致,从具体业务需求出发演变到合理的技术方案和实现,根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。
推荐序
前言
引子
第一篇 支持高效的运营
第1章 方案设计和技术选型:分类
1.1 分类的基本概念
1.2 分类任务的处理流程
1.3 算法:朴素贝叶斯和K最近邻
1.4 分类效果评估
1.5 相关软件:R和Mahout
1.6 案例实践
1.7 更多的思考
第2章 方案设计和技术选型:聚类
2.1 聚类的基本概念
2.2 算法:K均值和层次型聚类
2.3 聚类的效果评估
2.4 案例实践
第3章 方案设计和技术选型:因变量连续的回归分析
3.1 线性回归的基本概念
3.2 案例实践
第二篇 为顾客发现喜欢的商品:基础篇
第4章 方案设计和技术选型:搜索
4.1 搜索引擎的基本概念
4.2 搜索引擎的评估
4.3 为什么不是数据库
4.4 系统框架
4.5 常见的搜索引擎实现
4.6 案例实践
第三篇 为顾客发现喜欢的商品:高级篇
第5章 方案设计和技术选型:NoSQL和搜索的整合
5.1 问题分析
5.2 HBase简介
5.3 结合HBase和搜索引擎
5.4 案例实践
第6章 方案设计和技术选型:查询分类和搜索的整合
6.1 问题分析
6.2 结合分类器和搜索引擎
6.3 案例实践
第7章 方案设计和技术选型:个性化搜索
7.1 问题分析
7.2 结合用户画像和搜索引擎
7.3 案例实践
第8章 方案设计和技术选型:搜索分片
8.1 问题分析
8.2 利用搜索的分片机制
8.3 案例实践
第9章 方案设计和技术选型:搜索提示
9.1 问题分析
9.2 案例实践:基础方案
9.3 改进方案
9.4 案例实践:改进方案
第10章 方案设计和技术选型:推荐
10.1 推荐系统的基本概念
10.2 推荐的核心要素
10.3 推荐系统的分类
10.4 混合模型
10.5 系统架构
10.6 Mahout中的推荐算法
10.7 电商常见的推荐系统方案
10.8 案例实践
第四篇 获取数据,跟踪效果
第11章 方案设计和技术选型:行为跟踪
11.1 基本概念
11.2 使用谷歌分析
11.3 自行设计之Flume、HDFS和Hive的整合
11.4 自行设计之Flume、Kafka和Storm的整合
11.5 案例实践
11.6 更多的思考
后记