Apache DolphinScheduler通过向外透出指标来提高系统的监控告警能力。 我们使用Micrometer作为指标采集和透出框架。 目前,我们只支持Prometheus Exporter
,但是多样化的Exporter将会持续贡献给用户。
standalone
模式下采集并透出指标的能力,提供用户轻松快速的体验。standalone
模式下触发任务后,您可通过链接 http://localhost:12345/dolphinscheduler/actuator/metrics
访问生成的metrics列表。standalone
模式下触发任务后,您可通过链接 http://localhost:12345/dolphinscheduler/actuator/prometheus
访问prometheus格式
指标。Prometheus
+ Grafana
体验, 我们已经为您准备好了开箱即用的 Grafana
配置。您可在dolphinscheduler-meter/resources/grafana
找到Grafana
面板配置。 您可直接将这些配置导入您的Grafana
实例中。docker
方式体验,可使用如下命令启动我们为您准备好的开箱即用的Prometheus
和Grafana
:cd dolphinscheduler-meter/src/main/resources/grafana-demo docker compose up
然后,您即可通过http://localhost:3001
链接访问Grafana
面板。
集群
模式下体验指标,请参照下面的配置一栏:metrics: enabled: true
http://ip:port/actuator/prometheus
获取metrics。metrics exporter端口server.port
是在application.yaml里定义的: master: server.port: 5679
, worker: server.port: 1235
, alert: server.port: 50053
, api: server.port: 12345
.
举例来说,您可通过访问链接获取curl http://localhost:5679/actuator/prometheus
master metrics。
Micrometer
会根据您配置的外部指标系统自动将指标名称转化成适合您指标系统的格式。目前,我们只支持Prometheus Exporter
,但是多样化的指标格式将会持续贡献给用户。m_
前缀_total
结尾,会自动加上此后缀_timer_seconds
结尾,会自动加上此后缀_baseUnit
结尾,会自动加上此后缀master server
, worker server
, api server
and alert server
。master server
和 worker server
透出的,我们将这两块指标单独罗列出来,以方便您对任务 / 工作流的监控。state
按状态切分:task_type
聚类process.definition.code
和 state
切分。您可以通过 process.definition.code
这个tag筛选出和某个workflow相关的指标,这里的 process.definition.code
指的是您工作流定义的编号代码。工作流实例有如下七种状态:status
标签切分code
切分user_id
切分status
切分在每个server中都有一些系统层面(如数据库链接、JVM)的默认指标,为了您的检阅方便,我们也将它们列在了这里:
level
聚类