DevOps Observability : Metrics Là gì và tại sao cần đo lường?

Metrics là gì và tại sao cần đo lường nó? Trong Day #1 chúng ta đã biết mức độ quan trọng của Metrics, vị trí của nó trong Observability . Bài này mình sẽ đi chi tiết hơn về Metric nhé.

With Metrics, What Can Be Monitored?

Infrastructure: CPU usage, memory usage, disk I/O, network traffic.
Applications: Response times, error rates, throughput.
Databases: Query performance, connection pool usage, transaction rates.
Network: Latency, packet loss, bandwidth usage.
Security: Unauthorized access attempts, vulnerability scans, firewall logs.

Tôi cũng không biết làm sao để Việt hóa các khái niệm này cho nó chính xác. Toàn các khái niệm công nghệ ae chịu khó đọc lướt chút.

Nhìn chung là chúng ta sẽ có thể kiểm soát các tham số trên. Tuy nhiên nếu để nói về mặt công nghệ thì sẽ có một số khó khăn tùy thuộc vào Technical Stack sử dụng.

Ở đây tôi phân tách đơn giản về System-related metrics (Các chỉ số liên quan đến hệ thống):

Bare-Metal Servers (Máy chủ vật lý)
- Truy cập trực tiếp: Truy cập dễ dàng hơn vào các chỉ số phần cứng và nhật ký.
- Fewer Layers: Ít lớp hơn với mô hình đơn giản, ít lớp trừu tượng nên dễ xác định metrics hơn.
Kubernetes nói riêng và containerization nói chung
- Dynamic Environment: Những thách thức trong việc giám sát các container tạm thời và dynamic scaling.
- Distributed Nature: Vì mang tính chất phân tán này nên cần các công cụ có thể xử lý các hệ thống phân tán và tương quan dữ liệu từ nhiều nguồn khác nhau > Phức

Types of Metrics

System Metrics (Infrastructure Health)

Những chỉ số này đo lường sự ổn định và hiệu quả của hạ tầng cơ sở bên dưới:

CPU/Memory Usage — Đảm bảo máy chủ không bị quá tải.
Disk I/O & Network Latency — Phát hiện các vấn đề về lưu trữ và kết nối.
Uptime/Downtime — Theo dõi tính khả dụng của hệ thống.

Các công cụ như Prometheus và CloudWatch giúp theo dõi các chỉ số này trong thời gian thực.

Application Metrics (Performance & Reliability)

Tập trung vào việc Source Code của bạn hoạt động tốt như thế nào:

Error Rates — Theo dõi các lỗi ứng dụng (ví dụ: lỗi 5xx).
Response Time — Đo lường tốc độ phản hồi của dịch vụ.
Throughput — Số yêu cầu được xử lý mỗi giây.

Các chỉ số này giúp tối ưu hóa hiệu suất và độ tin cậy của dịch vụ.

Business Metrics (Impact & Value)

Điều này kết nối hiệu suất DevOps/SRE với kết quả kinh doanh:

Deployment Frequency — Tần suất phát hành các bản cập nhật.
Mean Time to Recovery (MTTR) — Thời gian khắc phục sự cố.
Customer Satisfaction (CSAT) — Phản hồi của người dùng về hiệu suất ứng dụng.

Các KPI này giúp các đội DevOps phù hợp với các mục tiêu kinh doanh. Thực ra là còn tùy vào từng doanh nghiệp nhé. Với SRE thì hơi khác một chút.

The Golden Signals (By Google SRE Team)

Như chúng ta đã biết, có hàng trăm dịch vụ, điểm cuối, giao diện, và hệ thống liên quan trong một ứng dụng để hoạt động cùng nhau. Vì vậy, việc theo dõi tất cả những tài nguyên này gần như là điều không thể.

Vì vậy, nếu bạn đang mắc kẹt trong tình huống này và không đo lường gì khác, hãy đo lường những tín hiệu này được gọi là 4 golden signals:

Latency — Thời gian xử lý một yêu cầu. Độ trễ cao báo hiệu performance bottlenecks.
Traffic — Khối lượng nhu cầu (ví dụ: QPS, TPS). Giúp đưa ra quyết định mở rộng.
Errors — Tỷ lệ yêu cầu thất bại. Xu hướng tăng là một cảnh báo đỏ.
Saturation — System usage vs. capacity. Giám sát để ngăn chặn sự cố.

Đây là nền tảng để duy trì SLOs (Service Level Objectives) và SLAs.

Công cụ Giám sát Phổ biến

Prometheus: Mã nguồn mở và hoàn hảo cho việc giám sát và cảnh báo dựa trên số liệu. Kết hợp tốt với Grafana.
Datadog: SaaS-based, tuyệt vời cho khả năng quan sát toàn bộ hệ thống qua cơ sở hạ tầng, ứng dụng và nhật ký.
AWS CloudWatch: Tích hợp với các dịch vụ AWS, hữu ích cho việc giám sát hạ tầng + ứng dụng.

Nhớ là phổ biến nhé. Thị trường bây giờ rất nhiều công cụ cả mất phí cả free mà ngon lành.

Tại sao việc giám sát lại quan trọng

Bằng cách theo dõi right metrics:

Bạn phát hiện ra sự cố trước khi người dùng làm điều đó.
Bạn tối ưu hóa hiệu suất một cách liên tục.
Bạn đưa ra quyết định dựa trên dữ liệu phù hợp với kết quả kinh doanh.
Bạn xây dựng niềm tin giữa Dev, Ops và các bên liên quan.
Bạn được tăng lương!

Bài số 1

DevOps Observability — Ngày #1: Tại sao Observability lại quan trọng?

With Metrics, What Can Be Monitored?

Types of Metrics

System Metrics (Infrastructure Health)

Application Metrics (Performance & Reliability)

Business Metrics (Impact & Value)

The Golden Signals (By Google SRE Team)

Công cụ Giám sát Phổ biến

Tại sao việc giám sát lại quan trọng

DevOps Observability — Ngày #1: Tại sao Observability lại quan trọng?

50+ Câu Lệnh DevOps và Bash Aliases sử dụng hàng ngày

Viết một bình luận Hủy

DevOps Observability — Ngày #2: Metrics — Là gì và tại sao cần đo lường?

With Metrics, What Can Be Monitored?

Types of Metrics

System Metrics (Infrastructure Health)

Application Metrics (Performance & Reliability)

Business Metrics (Impact & Value)

The Golden Signals (By Google SRE Team)

Công cụ Giám sát Phổ biến

Tại sao việc giám sát lại quan trọng

DevOps Observability — Ngày #1: Tại sao Observability lại quan trọng?

50+ Câu Lệnh DevOps và Bash Aliases sử dụng hàng ngày

Viết một bình luận Hủy