Skip to content

系统监控指标

Datalayers 提供丰富的监控指标,帮助用户全面掌握服务运行状态,快速识别和定位系统异常。

本文适合在容量规划、性能分析、故障排查和日常运维场景中使用,可作为 Datalayers 指标查询与监控面板建设的参考入口。

适用场景

  • 观察实例 CPU、内存、写入和查询负载
  • 判断 Flush、Compact、缓存与写入链路是否存在瓶颈
  • 配合 Prometheus 和 Grafana 构建可视化监控与告警规则

与监控系统集成

Datalayers 原生支持与 Prometheus 集成,实现高效的监控数据采集。将 Datalayers 接入第三方监控系统可带来以下优势:

  • 统一监控视图:将 Datalayers 的监控数据与其他系统指标整合,构建完整的监控体系
  • 可视化展示:通过 Grafana 等工具创建监控面板,直观呈现系统运行状态,详见 系统监控
  • 智能告警:利用 Prometheus Alertmanager 实现多通道告警通知,及时发现问题并快速响应

指标使用建议

  • 优先关注带有明显阈值建议的核心指标,这些指标更适合作为初始告警规则候选项
  • 结合趋势变化而不是单点数值判断问题,例如持续升高的 pending 队列、持续偏高的内存占用
  • 将系统级指标与 Datalayers 进程级指标一起观察,避免只看单一指标造成误判

Datalayers Metrics

KeyType说明
datalayers_system_memory_usagegauge* Datalayers 节点系统内存使用量,建议峰值负载不高于 60%
datalayers_memory_usagegauge* Datalayers 进程内存占用,建议峰值时不高于系统总内存的 60%
datalayers_cpu_usagegauge* Datalayers 进程 CPU 使用率,建议峰值时不高于 60%
datalayers_system_cpu_usagegauge* Datalayers 节点系统整体 CPU 使用率,建议峰值时不高于 60%
datalayers_system_memory_totalgaugeDatalayers 节点系统总内存
datalayers_cpu_totalgaugeDatalayers 节点 CPU core 数量
datalayers_ingest_rows_totalcounterDatalayers 写入的行数
datalayers_select_totalcounterDatalayers select 请求次数
parquet_meta_op_totalcounterparquet meta 缓存相关指标
datalayers_parquet_meta_cache_usagegaugeParquet meta 和 statistics 的缓存使用量
datalayers_parquet_meta_cache_config_sizegauge缓存 Parquet meta 和 statistics 的最大内存使用量
datalayers_flush_queue_limitgaugeFlush 任务队列长度限制
datalayers_flush_concurrence_limitgaugeFlush 并行任务限制
datalayers_flush_pending_lengthgauge* Flush 队列中等待的数量,该值不应该等于 datalayers_flush_queue_limit 的数量
datalayers_flush_running_lengthgauge正在 Flush 任务的数量
datalayers_compact_queue_limitgaugeCompact 任务队列长度限制
datalayers_compact_concurrence_limitgaugeCompact 并行任务限制
datalayers_compact_pending_lengthgaugeCompact pending 中的数量
datalayers_compact_running_lengthgaugeCompact running 中的数量
datalayers_global_rejected_writecounterDatalayers 节点 memtable 的数据量达到阈值后拒绝写入的次数
datalayers_rejected_writecounterTable 分区 memtable 的数据量达到阈值后拒绝写入的次数
latency_flush_per_10m_millisecondshistogramFlush 平均生成 10M 数据的延迟
latency_compact_per_10m_millisecondshistogramCompact 平均生成 10M 数据的延迟
datalayers_panic_totalcounterDatalayers panic 的次数
datalayers_hybrid_cached_file_memory_config_sizegauge缓存对象存储文件内容的最大内存使用量
datalayers_hybrid_cached_file_disk_config_sizegauge缓存对象存储文件内容的最大磁盘使用量
datalayers_hybrid_cached_file_meta_memory_config_sizegauge缓存对象存储文件 meta 信息的最大内存使用量

FDB Metrics

KeyType说明
fdb_database_availablegauge* 元数据服务状态,0 不健康,1 状态
fdb_process_disk_free_bytesgauge* 元数据存储磁盘已使用空间大小,单位:bytes, 使用空间超过 95% 会导致服务不可用
fdb_exporter_latency_secondsgauge* 访问元数据服务的时延,单位:秒。不应该大于 1
fdb_process_disk_total_bytesgauge元数据存储磁盘的总空间大小,单位:bytes

相关文档