Метрики и раскатка

Metrics

RPS
1. RPS по сервисам (Places Service vs Geo Service)
2. Пиковые vs средние значения
Kafka
1. Partition lag - распределение задержек по партициям
2. Consumer group rebalancing frequency - частота ребалансировки
3. Message throughput - количество сообщений в секунду
Latency
1. P50 (median) - типичное время отклика
2. P95 - 95% запросов быстрее этого времени
3. P99 - показывает tail latency, критичен для UX
Error Rate
1. 4xx errors (client errors) - показывают проблемы API
2. 5xx errors (server errors) - внутренние сбои системы
3. По сервисам и эндпоинтам
Насыщенность ресурсов
1. CPU utilization (по узлам и сервисам)
2. Memory usage (особенно для Redis и Elasticsearch)
3. Disk I/O для PostgreSQL и Elasticsearch
4. Network bandwidth utilization

Если сугубо продуктово, то можно рассмотреть:

Retention после нового релиза фичи
Click rate по карточкам с другим дизайном
Geographic Engagement Metrics - вовлеченность по гео

Раскатка

Если хотим тестировать разные версии, то можно использовать canary deployment. В данном случае у нас будут разные версии на проде и мы можем делать замеры (как технические, так и продуктовые)