如何使用Golang实现指标监控_监控指标采集方法

最直接方式是用prometheus/client_golang注册指标并挂载promhttp.Handler()到/metrics;必须调用MustRegister(),指标为全局单例,禁用弃用的prometheus.Handler()。

prometheus.ClientGolang 暴露指标端点最直接

Go 服务暴露监控指标,首选官方维护的 prometheus/client_golang。它不负责采集,只提供注册、收集和 HTTP 暴露能力。你要做的,是初始化一个 promhttp.Handler() 并挂到 HTTP 路由上。

  • 必须调用 prometheus.MustRegister() 注册你定义的指标(如 prometheus.NewCounterVec),否则指标不会出现在 /metrics
  • 不要在每次请求里新建 CounterGauge —— 它们是全局单例,重复注册会 panic
  • HTTP handler 必须用 promhttp.Handler(),不能用 http.DefaultServeMux 直接返回 prometheus.Handler()(后者已弃用)
package main

import (
    "net/http"
    "github.com/prometheus/client_golang/prometheus"
    "github.com/prometheus/client_golang/prometheus/promhttp"
)

var (
    httpRequestsTotal = prometheus.NewCounterVec(
        prometheus.CounterOpts{
            Name: "http_requests_total",
            Help: "Total number of HTTP requests.",
        },
        []string{"method", "status"},
    )
)

func init() {
    prometheus.MustRegister(httpRequestsTotal)
}

func handler(w http.ResponseWriter, r *http.Request) {
    httpRequestsTotal.WithLabelValues(r.Method, "200").Inc()
    w.WriteHeader(200)
}

func main() {
    http.HandleFunc("/", handler)
    http.Handle("/metrics", promhttp.Handler()) // 注意这里
    http.ListenAndServe(":8080", nil)
}

自定义指标类型选错会导致查询失败或语义错误

Counter、Gauge、Histogram、Summary 不是随便换着用的。Prometheus 查询函数(如 rate()increase())只对 Counter 有意义;用 Gauge 记请求数量,rate() 会返回 0 或负值。

  • Counter:只增不减,适合累计量(如请求总数、错误总数)
  • Gauge:可增可减,适合瞬时值(如当前 goroutine 数、内存使用 MB)
  • Histogram:分桶统计,适合延迟(latency)、响应大小等分布类指标;生成 _sum_count_bucket 多个时间序列
  • Summary:客户端计算分位数(如 p95),但无法聚合,多实例场景下基本不用

常见误用:HistogramBuckets 设太宽(如 []float64{0.1, 0.2, 5})导致大部分请求挤在最后一个桶,p99 失真;应按实际延迟分布设,比如 []float64{0.005, 0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1, 2.5, 5, 10}(单位秒)

指标命名和 label 设计影响 Prometheus 查询效率

指标名要带语义前缀(如 myapp_http_request_duration_seconds),避免用 metric1 这类名称;label 不是越多越好,高基数(cardinality)label(如 user_idrequest_id)会让 series 数量爆炸,拖慢 Prometheus 查询和存储。

  • 必须用 label 区分维度:比如 methodstatuspath 是合理 label;ipuser_agent 通常不该加(除非明确需要)
  • 避免在 label 值里拼接字符串(如 path="/api/v1/users/"+id),这等于为每个 ID 创建新 series
  • 高频更新的指标(如每秒上千次 Inc())别加太多 label,写入压力会陡增

本地调试时 curl localhost:8080/metrics 看不到指标?先查三件事

暴露端点后 curl 返回空或 404,不是代码写错了就是没跑起来。

  • 确认 http.ListenAndServe() 没 panic,且端口没被占用(lsof -i :8080
  • 确认指标已 MustRegister(),未注册的指标不会出现在 /metrics 输出中
  • 确认没有在 handler 里调用了 os.Exit() 或 panic 后没 recover,导致进程提前退出

另外,promhttp.Handler() 默认只响应 GETOPTIONS,用 POST curl 会 405;调试就老实用 curl -v http://localhost:8080/metrics