Metrics
- RPS
- RPS по сервисам (Places Service vs Geo Service)
- Пиковые vs средние значения
- Kafka
- Partition lag - распределение задержек по партициям
- Consumer group rebalancing frequency - частота ребалансировки
- Message throughput - количество сообщений в секунду
- Latency
- P50 (median) - типичное время отклика
- P95 - 95% запросов быстрее этого времени
- P99 - показывает tail latency, критичен для UX
- Error Rate
- 4xx errors (client errors) - показывают проблемы API
- 5xx errors (server errors) - внутренние сбои системы
- По сервисам и эндпоинтам
- Насыщенность ресурсов
- CPU utilization (по узлам и сервисам)
- Memory usage (особенно для Redis и Elasticsearch)
- Disk I/O для PostgreSQL и Elasticsearch
- Network bandwidth utilization
Если сугубо продуктово, то можно рассмотреть:
- Retention после нового релиза фичи
- Click rate по карточкам с другим дизайном
- Geographic Engagement Metrics - вовлеченность по гео
Раскатка
Если хотим тестировать разные версии, то можно использовать canary deployment. В данном случае у нас будут разные версии на проде и мы можем делать замеры (как технические, так и продуктовые)