Метрики и раскатка

Metrics

  1. RPS
    1. RPS по сервисам (Places Service vs Geo Service)
    2. Пиковые vs средние значения
  2. Kafka
    1. Partition lag - распределение задержек по партициям
    2. Consumer group rebalancing frequency - частота ребалансировки
    3. Message throughput - количество сообщений в секунду
  3. Latency
    1. P50 (median) - типичное время отклика
    2. P95 - 95% запросов быстрее этого времени
    3. P99 - показывает tail latency, критичен для UX
  4. Error Rate
    1. 4xx errors (client errors) - показывают проблемы API
    2. 5xx errors (server errors) - внутренние сбои системы
    3. По сервисам и эндпоинтам
  5. Насыщенность ресурсов
    1. CPU utilization (по узлам и сервисам)
    2. Memory usage (особенно для Redis и Elasticsearch)
    3. Disk I/O для PostgreSQL и Elasticsearch
    4. Network bandwidth utilization

Если сугубо продуктово, то можно рассмотреть:

  1. Retention после нового релиза фичи
  2. Click rate по карточкам с другим дизайном
  3. Geographic Engagement Metrics - вовлеченность по гео

Раскатка

Если хотим тестировать разные версии, то можно использовать canary deployment. В данном случае у нас будут разные версии на проде и мы можем делать замеры (как технические, так и продуктовые)