Flink是一个以流为核心的高可用、高性能的分布式计算引擎。雅菲奥朗Flink大数据实时流计算培训课程内容涵盖了Apache Flink实时流计算应用场景介绍、Apache Flink部署架构、流处理基础操作、Flink 作业异常分析、将参数传递给函数、流处理中的状态和容错、流处理窗口、数据流的连接操作、批处理基础操作,以及Table API 和 Flink SQL。
课程天数:3天
课程内容:
一、Apache Flink实时流计算应用场景介绍
1、Flink AI 及机器学习
2、Flink 实时数仓案例分析
3、Flink 风控案例分析
4、Flink 实时监控案例分析
5、Flink 实时推荐系统分析
二、Apache Flink部署架构
1、本地模式
2、Standalone
3、YARN模式
4、Flink集群高可用
5、程序打包和部署
6、Flink 作业的多种提交模式
三、流处理基础操作
1、DataStream的基本概念
2、数据源
3、数据流的转换操作
4、数据接收器
5、数据流各类算子操作
6、富函数
7、任务链和资源组
8、设置任务槽共享组
9、物理分区
10、自定义分区策略
11、shuffle分区策略
12、broadcast分区策略
13、rebalance分区策略
14、rescale分区策略
15、forward分区策略
16、global分区策略
四、Flink 作业异常分析
1、Flink反压原理和分析
2、Flink数据倾斜案例分析
五、将参数传递给函数
1、通过构造函数传递参数
2、使用ExecutionConfig传递参数
3、将命令行参数传递给函数
六、流处理中的状态和容错
1、有状态计算
2、Operator状态和Keyed状态
3、检查点机制
4、启用和配置检查点机制
5、状态后端
6、MemoryStateBackend
7、FsStateBackend
8、RocksDBStateBackend
9、配置状态后端
10、保存点机制
11、广播状态
12、调优检查点和状态
13、重启策略
14、固定延迟重启策略
七、流处理窗口
1、窗口分配器
2、窗口函数
3、窗口触发器
4、窗口剔除器
5、允许数据延迟
6、时间语义
7、事件时间与水印
8、设置时间特性
八、数据流的连接操作
1、侧端输出
2、ProcessFunction
3、自定义数据源函数
4、数据接收器函数
5、SinkFunction接口
6、RichSinkFunction抽象类
7、数据流连接器
8、内置连接器
9、数据源和数据接收器的容错保证
10、Kafka连接器
九、批处理基础操作
1、DataSet的基本概念
2、数据源
3、数据接收器
4、数据集的基本操作
5、物理分区
十、Table API 和 Flink SQL
1、基础概念和通用API
2、建一个TableEnvironment
3、DataStream和DataSet API的集成
4、数据类型到表模式的映射
5、查询优化
6、SQL
7、Table API
8、自定义函数
9、标量函数
10、表函数
11、聚合函数
12、自定义函数与运行环境集成
13、SQL客户端
14、流处理中的Table API和SQL
15、动态表
16、时间属性
17、动态表的Join
18、时态表
19、表模式
20、更新模式
十一、执行管理
1、执行参数
2、并行执行
3、操作符级别
4、执行环境级别
5、客户端级别
6、系统级别
7、设置最大并行度
十二、Flink 作业运行监控
1、列出集群中的作业
2、调整集群中的作业
3、Flink Web UI监控指标设置
4、作业算子延迟监控分析
课程天数:3天
课程内容:
一、Apache Flink实时流计算应用场景介绍
1、Flink AI 及机器学习
2、Flink 实时数仓案例分析
3、Flink 风控案例分析
4、Flink 实时监控案例分析
5、Flink 实时推荐系统分析
二、Apache Flink部署架构
1、本地模式
2、Standalone
3、YARN模式
4、Flink集群高可用
5、程序打包和部署
6、Flink 作业的多种提交模式
三、流处理基础操作
1、DataStream的基本概念
2、数据源
3、数据流的转换操作
4、数据接收器
5、数据流各类算子操作
6、富函数
7、任务链和资源组
8、设置任务槽共享组
9、物理分区
10、自定义分区策略
11、shuffle分区策略
12、broadcast分区策略
13、rebalance分区策略
14、rescale分区策略
15、forward分区策略
16、global分区策略
四、Flink 作业异常分析
1、Flink反压原理和分析
2、Flink数据倾斜案例分析
五、将参数传递给函数
1、通过构造函数传递参数
2、使用ExecutionConfig传递参数
3、将命令行参数传递给函数
六、流处理中的状态和容错
1、有状态计算
2、Operator状态和Keyed状态
3、检查点机制
4、启用和配置检查点机制
5、状态后端
6、MemoryStateBackend
7、FsStateBackend
8、RocksDBStateBackend
9、配置状态后端
10、保存点机制
11、广播状态
12、调优检查点和状态
13、重启策略
14、固定延迟重启策略
七、流处理窗口
1、窗口分配器
2、窗口函数
3、窗口触发器
4、窗口剔除器
5、允许数据延迟
6、时间语义
7、事件时间与水印
8、设置时间特性
八、数据流的连接操作
1、侧端输出
2、ProcessFunction
3、自定义数据源函数
4、数据接收器函数
5、SinkFunction接口
6、RichSinkFunction抽象类
7、数据流连接器
8、内置连接器
9、数据源和数据接收器的容错保证
10、Kafka连接器
九、批处理基础操作
1、DataSet的基本概念
2、数据源
3、数据接收器
4、数据集的基本操作
5、物理分区
十、Table API 和 Flink SQL
1、基础概念和通用API
2、建一个TableEnvironment
3、DataStream和DataSet API的集成
4、数据类型到表模式的映射
5、查询优化
6、SQL
7、Table API
8、自定义函数
9、标量函数
10、表函数
11、聚合函数
12、自定义函数与运行环境集成
13、SQL客户端
14、流处理中的Table API和SQL
15、动态表
16、时间属性
17、动态表的Join
18、时态表
19、表模式
20、更新模式
十一、执行管理
1、执行参数
2、并行执行
3、操作符级别
4、执行环境级别
5、客户端级别
6、系统级别
7、设置最大并行度
十二、Flink 作业运行监控
1、列出集群中的作业
2、调整集群中的作业
3、Flink Web UI监控指标设置
4、作业算子延迟监控分析