网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Apache Airflow数据编排实战
分类
作者 (荷)巴斯·哈伦斯拉克//朱利安·德·瑞特
出版社 清华大学出版社
下载
简介
内容推荐
数据管道通过整合、清理、分析、可视化等方式来管理初始收集的数据流。Apache Airflow提供了一个统一的平台,可以使用它设计、实施、监控和维护数据的流动。Airflow具有易于使用的UI、即插即用的选项以及灵活的Python脚本,这些都使Airflow能够非常轻松地完成任何数据管理任务。
在《Apache Airflow数据编排实战》中,介绍了如何构建和维护有效的数据管道。与你一同探索最常见的使用模式,包括聚合多个数据源、连接到数据湖以及云端部署。可以将本书作为Airflow的实用指南,本书涵盖了为Airflow提供动力的有向无环图(DAG)的各方面知识,以及如何根据工作需求对其进行自定义的技术。
主要内容
构建、测试及部署Airflow管道作为DAG
自动对数据进行移动和转换
使用回填技术分析历史数据集
开发自定义组件
在生产环境中搭建Airflow
本书面向具有一定Python编程基础的程序员、DevOps工程师、数据工程师、机器学习工程师及系统管理员。
作者简介
巴斯·哈伦斯拉克是GoDataDriven的数据工程师。GoDataDriven是一家位于荷兰阿姆斯特丹的开发数据驱动解决方案的公司。Harenslak拥有软件工程和计算机科学背景,他喜欢研究软件和数据,从事开源软件的工作,他是Apache Airflow项目的提交者,并且是阿姆斯特丹Airflow用户组的联合组织者。
目录
第Ⅰ部分 入门
第1章 遇见Apache Airflow
1.1 数据管道介绍
1.1.1 数据管道的图形表示
1.1.2 运行管道图
1.1.3 管道图与顺序脚本
1.1.4 使用工作流管理器运行数据流
1.2 Airflow介绍
1.2.1 通过Python代码灵活定义数据管道
1.2.2 调度并执行数据管道
1.2.3 监控和处理故障
1.2.4 增量载入和回填
1.3 何时使用Airflow
1.3.1 选择Airflow的原因
1.3.2 不使用Airflow的理由
1.4 本书的其余部分
1.5 本章小结
第2章 Airflow DAG深度解析
2.1 从大量数据源中收集数据
2.2 编写你的第一个Airflow DAG
2.2.1 任务与operator
2.2.2 运行任意Python代码
2.3 在Airflow中运行DAG
2.3.1 在Python环境中运行Airflow
2.3.2 在Docker容器中运行Airflow
2.3.3 使用Airflow图形界面
2.4 运行定时任务
2.5 处理失败的任务
2.6 本章小结
第3章 Airflow中的调度
3.1 示例:处理用户事件
3.2 定期执行DAG
3.2.1 使用调度器计划性运行
3.2.2 基于cron的时间间隔
3.2.3 基于频率的时间间隔
3.3 增量处理数据
3.3.1 获取增量事件数据
3.3.2 使用执行日期的动态时间参考
3.3.3 对数据执行分区
3.4 理解Airflow的执行日期
3.5 使用回填技术填补过去的空白
3.6 任务设计的最佳实践
3.6.1 原子性
3.6.2 幂等性
3.7 本章小结
第4章 使用Airflow context对任务进行模板化
4.1 为Airflow准备数据
4.2 任务context和Jinja模板
4.2.1 对operator使用参数模板
4.2.2 模板中可用的变量及表达式
4.2.3 对PythonOperator使用模板
4.2.4 为PythonOperator提供变量
4.2.5 检查模板化参数
4.3 连接到其他系统
4.4 本章小结
第5章 定义任务之间的依赖关系
5.1 基本依赖关系
5.1.1 线性依赖关系
5.1.2 扇入/扇出依赖
5.2 分支
5.2.1 在任务内部执行分支操作
5.2.2 在DAG中使用分支技术
5.3 带有条件的任务
5.3.1 在任务内部使用条件
5.3.2 对DAG使用条件
5.3.3 使用内置operator
5.4 触发条件详解
5.4.1 什么是触发规则
5.4.2 失败的影响
5.4.3 其他触发规则
5.5 在任务之间共享数据
5.5.1 使用XCom共享数据
5.5.2 XCom的适用场景
5.5.3 使用自定义XCom后端存储
5.6 使用Taskflow API连接Python任务
5.6.1 使用Taskflow API简化Python任务
5.6.2 Taskflow API的适用场景
5.7 本章小结
第Ⅱ部分 Airflow深入学习
第6章 触发工作流
6.1 带有传感器的轮询条件
6.1.1 轮询自定义条件
6.1.2 传感器的异常情况
6.2 触发其他DAG
6.2.1 使用TriggerDagRunOperator执行回填操作
6.2.2 轮询其他DAG的状态
6.3 使用REST/CLI启动工作流
6.4 本章小结
第7章 与外部系统通信
7.1 连接到云服务
7.1.1 安装额外的依赖软件包
7.1.2 开发一个机器学习模型
7.1.3 在本地开发外部系统程序
7.2 在系统之间移动数据
7.2.1 实现PostgresToS3Operator
7.2.2 将繁重的任务“外包”出去
7.3 本章小结
第8章 创建自定义组件
8.1 从PythonOperator开始
8.1.1 模拟电影评分API
8.1.2 从API获取评分数据
8.1.3 构建具体的DAG
8.2 创建自定义hook
8.2.1 设定自定义hook
8.2.2 使用MovielensHook构建DAG
8.3 构建自定义operator
8.3.1 创建自定义operator
8.3.2 创建用于获取评分数据的operator
8.4 创建自定义传感器
8.5 将你的组件打包
8.5.1 引导Python包
8.5.2 安装你的Python包
8.6 本章小结
第9章 测试
9.1 开始测试
9.1.1 所有DAG的完整性测试
9.1.2 设置CI/CD管道
9.1.3 编写单元测试
9.1.4 pytest项目结构
9.1.5 使用磁盘上的文件测试
9.2 在测试中使用DAG和任务context
9.3 使用测试进行开发
9.4 使用Whirl模拟生产环境
9.5 创建DTAP环境
9.6 本章小结
第10章 在容器中运行任务
10.1 同时使用多个不同operator所面临的挑战
10.1.1 operator接口和实现
10.1.2 复杂且相互冲突的依赖关系
10.1.3 转向通用operator
10.2 容器
10.2.1 什么是容器
10.2.2 运行第一个Docker容器
10.2.3
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/19 22:19:37