集群是由一组物理或虚拟主机组成的逻辑单元,用于承载大数据组件的分布式运行环境。每个集群具备独立的配置空间和资源隔离边界
预定义的标准化服务集合,包含安装脚本、配置模板及依赖关系描述
组件栈 | 描述 |
---|---|
Infra | 所有集群共享的服务,比如监控系统 Prometheus |
Bigtop | Apache Bigtop 提供的服务,如 Hadoop/Hive/Spark 等 |
Extra | 社区提供或自定义服务,如 SeaTunnel |
运行在集群上的服务单元,代表具体的大数据服务(如 Hadoop/Hive/Spark 等)
服务内部的运行实例,对应具体进程或功能模块。组件级别的操作(启动/停止等)由 Agent 执行。
graph TB Hadoop-->NameNode Hadoop-->DataNode Hadoop-->ResourceManager Kafka-->KB[Kafka Broker] Solr-->SI[Solr Instance] SeaTunnel-->SM[SeaTunnel Master] SeaTunnel-->SW[SeaTunnel Worker] SeaTunnel-->SL[SeaTunnel Client]
用户发起的最小可调度单元,代表一个完整的运维操作目标。例如: 启动 Hadoop 服务
、更新 Spark 配置并重启
等
作业(Job)分解后的逻辑执行单元,对应服务组件的独立操作步骤。例如: 启动 Hadoop
Job → 启动 NameNode
Stage、启动 DataNode
Stage 等
阶段(Stage)在具体主机上的执行实例,代表最小粒度的操作指令。例如: 启动 NameNode
Stage → 启动 host-01 上的 NameNode
Task、启动 host-02 上的 NameNode
Task
用户通过 REST API 提交操作请求后:
PENDING
)调度器按 DAG 顺序执行 Stage:
Agent 接收 Task 后的处理流程:
执行保障机制:
状态类型 | 触发条件 | 处理策略 |
---|---|---|
PENDING | 任务创建未调度 | 等待调用 |
RUNNING | 任务执行中 | 监听超时阈值 |
SUCCESSFUL/FAILED | 任务执行结果 | 更新组件状态 |
CANCELED | 该任务被取消(仅 Stage/Task 存在该状态) | 取消后续任务 |