Описание
[Виталий Лихачев] Observability, как в BigTech (2025) [Balun.Courses] [Тариф Стандарт]
![[Виталий Лихачев] Observability, как в BigTech (2025) [Balun.Courses] [Тариф Стандарт]](https://freekurses.site/wp-content/uploads/vitaliy-lihachev-observability-kak-v-bigtech-2025-balun.courses-tarif-standart.png)
Глубокий курс о том, как поставлять логи, метрики, трейсы, делать информативные дашборды, быстро устранять инциденты и правильно интерпретировать данные
Вопросы, на которые ответит курс
- Как правильно строить дашборды, алерты и как интерпретировать данные на уровне Senior’ов и TeamLead’ов
- Как строить полезные метрики, которые не расходуют лишние ресурсы на хранение
- Как писать логи, в которых потом легко разобраться
- Как правильно оценить нагрузку для новой фичи или сервиса и уменьшить количество инцидентов
- Как найти причину инцидента за пару минут и всегда держать руку на пульсе
- Как с помощью Observability экономить деньги работодателю, показывать бизнес-метрики и повышать себе ЗП на perfomance review
За 2,5 месяца изучаем best practices, которые используют в BigTech
Глубоко изучишь основы и лучшие практики Observability: метрики, логи, трейсы и многое другое
Научишься инструментировать любые сервисы для достижения хорошего observability
Научишься эксплуатировать сервисы: настройка, масштабирование и оптимизация инфраструктуры для сбора метрик, настройка хранилищ и систем алертинга
Построишь эффективные и не перегруженные дашборды для мониторинга состояния системы и приложений
Научишься управлять стабильностью системы и предсказывать ее поведение
Изучишь все плюсы и минусы Prometheus, Grafana Loki, Jaeger и поймешь, что и когда нужно использовать
Программа курса:
- Урок 1. Введение в Observability
- Урок 2. Метрики: основные концепции и работа с ними
- Урок 3. Хранилища метрик и их выбор
- Урок 4. Визуализация и управление метриками
- Урок 5. Логирование и структурированные логи
- Урок 6. Трейсинг
- Урок 7. Оптимизация наблюдаемости и оптимизация сервисов
- Урок 8. Управление алертингом
- Урок 9. Использование метрик для управления поведением приложения
- Урок 10. Observability как часть SRE — практики и проблемы эксплуатации
- Урок 11. Стратегии для больших систем
Введение в Observability
Теория:
• Что такое Observability: основные аспекты (метрики, логи, трейсы, профили).
• Зачем нужна наблюдаемость для микросервисов.
• Структурные отличия observability для монолитов и микросервисов.
• Инструменты Observability: обзор (Prometheus, Graphite, Grafana, Grafana Alloy, Grafana Pyroscope, Grafana Tempo, OpenTelemetry, Loki, Jaeger, Clickhouse).
Практика:
• Настройка базового проекта на Go.
• Интеграция базового мониторинга с Prometheus и с push gateway.
• Интеграция с graphite
• Интеграция с Loki
• Примеры использования инструментов observability
• Пример сбора runtime-метрик golang приложения.
Урок 2
Метрики: основные концепции и работа с ними
Теория:
• Разные подходы к работе с метриками: push vs pull.
• Архитектура Prometheus.
• Кардинальность метрик: что это и почему важно.
• Влияние системы сбора метрик на производительность.
• Эффективное именование метрик
• Разница бизнес метрик и технических метрик
• Влияние метрик на принятие бизнес решений
Практика:
• Создание и экспорт пользовательских метрик: счетчики, гистограммы, таймеры, скаляры (gauges), summaries.
• Анализ влияния высокой кардинальности на производительность.
Урок 3
Хранилища метрик и их выбор
Теория:
• Особенности архитектуры хранилищ метрик (Prometheus TSDB, VictoriaMetrics, Thanos, Graphite, Clickhouse).
• Выбор хранилища в зависимости от нагрузки и объемов данных.
• Проблемы хранения большого объема данных: retention, агрегация, компрессия.
Практика:
• Оптимизация сбора метрик prometheus с тяжелых endpoints
• Антипаттерны реализации /metrics в связке с prometheus
• Настройка локального Prometheus в связке с VictoriaMetrics и удаленного хранилища.
• Использование graphite.
• Импорт/Экспорт метрик.
• Сравнение производительности при использовании разных хранилищ.
Урок 4
Визуализация и управление метриками
Теория:
• Лучшие практики построения дашбордов.
• Антипаттерны построения дашбордов.
• Типы графиков и их применение: временные ряды, heatmap, гистограммы, gauges, etc.
• Как избежать перегруженных дашбордов.
• 4 Golden Signals и их значение для мониторинга.
• RED/USE методы построения дашбордов
Практика:
• Управление метриками: агрегация, квантили, экспоненциальное скользящее среднее.
• Создание дашбордов в Grafana для анализа Golden Signals.
• Практическое задание: построить дашборд для микросервиса.
• Продвинутая настройка grafana: версионирование дашбордов, интеграция с несколькими источниками данных, переменные, зависимости переменных, кастомные визуализации, annotations, группировка панелей
Урок 5
Логирование и структурированные логи
Теория:
• Подходы к логированию: текстовые и структурированные логи.
• Стандарты форматирования логов (JSON, OpenTelemetry Logs).
• Фильтрация и нормализация логов
• Скрытие конфиденциальной информации
• Уход от ELK в сторону grafana stack, плюсы и минусы использования ELK
Практика:
• Интеграция структурированного логирования с logrus или zap, использование slog
• Настройка Loki для агрегации логов.
• Использование fluentbit для фильтрации и отправки логов.
• Написание запросов в Loki для анализа логов.
• Уменьшение объема логов без потери данных.
Урок 6
Трейсинг
Теория:
• Что такое трейсы и зачем они нужны.
• Основы работы OpenTelemetry Trace.
• Корреляция трейсов, логов и метрик.
• OpenTelemetry как единый стандарт для метрик, логов и трейсов
• Архитектура и возможности OpenTelemetry
• Преимущества и сложности перехода на OpenTelemetry.
• Observability асинхронных систем
• Автоматическая интеграция OpenTelemetry на уровне инфраструктуры (http, sql), интеграция и корреляция на стыке систем (сервис + БД + API gateway)
• Обзор последних трендов: eBPF для мониторинга (OpenTelemetry), AIOps.
Практика:
• Интеграция OpenTelemetry в приложение. Golang zero code instrumentation
• Настройка Jaeger для распределенного трейсинга.
• Настройка Grafana Alloy для трейсинга
• Анализ проблем на основе трейсов (высокая latency, ошибки)
• Корреляция логов/метрик/трейсов (OpenTelemetry semantic conventions.
• Отладка сети с помощью OpenTelementry
• Автоматизация прокидывания requestId сквозь разные слои сервисов
• Миграция с Prometheus + Jaeger на OpenTelemetry.
• Настройка сборщиков для метрик, логов, трейсов через OpenTelemetry Collector.
Урок 7
Оптимизация наблюдаемости и оптимизация сервисов
Теория:
• Проблема избыточности данных: что собирать, а что нет.
• Автоматизация интеграции метрик и логов в большое количество сервисов.
• Влияние нагрузки от системы наблюдаемости на производительность.
• Выбор агрегируемых данных/агрегация метрик.
• Проблемы мониторинга микросервисов: автоматическое обнаружение сервисов, динамическое масштабирование.
• Adaptive metrics – удаление неиспользуемых метрик
Практика:
• Настройка rate-лимитов для систем сбора метрик.
• Сэмплирование трейсов.
• Отладка долгих запросов, анализ причин деградации
• Создание шаблона для быстрой интеграции метрик и логов в новый сервис.
• Измерение влияния observability на приложение.
• Использование pprof для анализа (grafana pyroscope, flamegraphs), golang continuous profiling
• Traces to profiles
• Управление доступом к метрикам, логам, трейсам, аудит
Урок 8
Управление алертингом
Теория:
• Как писать запросы для алертов (prometheus, graphite)
• Алерты из метрик, алерты из логов
• Настройка порогов для Golden Signals.
• Предотвращение перегрузки системы алертинга.
• Автоматизация алертинга.
• Дашборды для SLO
Практика:
• Настройка Alertmanager.
• Настройка алертинга в Grafana.
• Написание запросов для сложных алертов.
• Интеграция с уведомлениями (Slack, Email, PagerDuty).
• Маскирование ошибок неправильными запросами (примеры: transformNull, пропадание метрики)
Урок 9
Использование метрик для управления поведением приложения
Теория:
• Взаимосвязь метрик и механизмов устойчивости (rate limiters, circuit breakers).
• Применение метрик для автоматической деградации.
• Подготовка системы к пиковым нагрузкам.
• Метрики для управления поведением системы:
• Примеры: Circuit Breakers, Graceful Degradation.
• Адаптивные rate limiters.
• Использование метрик для прогнозирования:
• Сезонные паттерны нагрузки.
• Прогнозирование с использованием ML-библиотек.
Практика:
• Реализация graceful degradation на основе метрик.
• Использование метрик для предсказания нагрузки (на основе данных прошлого года).
• Настройка circuit breakers.
Урок 10
Observability как часть SRE — практики и проблемы эксплуатации
Теория:
• Введение в SRE и роль Observability:
• Error Budgets.
• Применение Top-Down анализа.
• Баланс между объемом данных и их ценностью:
• Что хранить, а что игнорировать.
• Построение системы observability для N-сервисов:
• Обработка синхронных/асинхронных взаимодействий.
• Кейсы деградации цепочек вызовов.
Практика:
• Разработка observability для системы из нескольких Go-сервисов.
• Анализ деградации цепочек вызовов через трейсы и метрики.
Урок 11
Стратегии для больших систем
Теория:
• Построение наблюдаемости для системы из множества сервисов.
• Подходы к массовой интеграции метрик в микросервисы:
• Конфигурация экспортеров и SDK.
• Шаблонизация дашбордов.
• Автоматизация алертинга: CI/CD для observability.
• Автоматизация деплоя observability стека
• Как не перегрузить систему мониторинга сложными алертами
• Синхронные и асинхронные взаимодействия: мониторинг и алертинг.
• Дизайн метрик и root cause analysis.
• Борьба с избыточным количеством метрик.
• Предсказания
• AI для алертинга
• Использование service mesh istio для улучшения наблюдаемости системы, kiali для визуализации, автоматизация сбора метрик на уровне инфраструктуры, header propagation
Практика:
• Создание комплексного дашборда для системы из N сервисов.
• Написание эффективных запросов
• Настройка cross-service трейсов.
• Проведение RCA с использованием метрик, логов и трейсов.
• Автоматизация конфигураций метрик и алертов с помощью Helm и Terraform.
Преподает Виталий Лихачев. SRE в TravelTech, который ты точно знаешь
Тариф Стандарт:
11 практических занятий
Домашние задания
Q&A-сессии с ответами на вопросы
Начало: 13 мая 2025.
Автор курса: Виталий Лихачев
Сайт продажника: https://balun.courses/courses/observability
Цена с продажника: 46500 руб.
У нас Вы можете приобрести всего за 590 руб.

![[Виталий Лихачев] Observability, как в BigTech (2025) [Balun.Courses] [Тариф Стандарт]](https://infoshopik.com/wp-content/uploads/2025/09/vitaliy-lihachev-observability-kak-v-bigtech-2025-balun.courses-tarif-standart.png)
![[Слёрм][Платон Платонов] Администрирование Linux. Мега (2022)](https://infoshopik.com/wp-content/uploads/2022/11/sljormplaton-platonov-administrirovanie-linux.-mega-2022-324x324.png)
![[Serge Bobrovsky] Почему карьера разработчика с полной занятостью умирает (и что приходит ей на смену) (2025)](https://infoshopik.com/wp-content/uploads/2025/08/serge-bobrovsky-pochemu-karera-razrabotchika-s-polnoy-zanyatostyu-umiraet-i-chto-prihodit-ey-na-smenu-2025-324x324.png)
![[Антон Щербак] Работа с датой и временем в Python (2024) [stepik]](https://infoshopik.com/wp-content/uploads/2024/03/anton-shherbak-rabota-s-datoj-i-vremenem-v-python-2024-stepik--324x324.png)
![[HTML Academy] Профессиональный JavaScript. Уровень 3 (2020)](https://infoshopik.com/wp-content/uploads/2021/12/html-academy-professionalnyj-javascript.-uroven-3-2020-324x324.png)
![[Ольга Пономарева] ТОП-100 вопросов и ответов из собеседований на системного аналитика (2024)](https://infoshopik.com/wp-content/uploads/2024/06/olga-ponomareva-top-100-voprosov-i-otvetov-iz-sobesedovanij-na-sistemnogo-analitika-2024-324x324.png)
![[ТИПИЧНЫЙ ВЕРСТАЛЬЩИК] [Анна Блок] Базовый курс для верстальщиков (2019)](https://infoshopik.com/wp-content/uploads/2021/12/tipichnyj-verstalshhik-anna-blok-bazovyj-kurs-dlja-verstalshhikov-2019-324x324.jpg)
![[Антон Жиянов] Thank Go! Многозадачность в Golang (2024) [Stepik]](https://infoshopik.com/wp-content/uploads/2024/07/stepik-anton-zhijanov-thank-go-mnogozadachnost-v-golang-2024-324x324.png)
![[NeuralGo] Полный курс по языку Golang. С нуля до REST API и gRPC (2025) [Stepik]](https://infoshopik.com/wp-content/uploads/2025/07/neuralgo-polnyy-kurs-po-yazyku-golang.-s-nulya-do-rest-api-i-grpc-2025-stepik--324x324.png)
![[Сергей Русанов] Linux. Уровень 1. Основы администрирования (2024) [Специалист]](https://infoshopik.com/wp-content/uploads/2024/09/sergey-rusanov-linux.-uroven-1.-osnovy-administrirovaniya-2024-spetsialist--324x324.png)
![[Михаил Якобсен] Мини - курс VMware vSphere 7 (2021) [Merion Networks] [Merion Academy]](https://infoshopik.com/wp-content/uploads/2021/12/mihail-jakobsen-mini-kurs-vmware-vsphere-7-2021-merion-networks-merion-academy--324x324.png)
![[Lectrum] Видеокурс по TypeScript (2020)](https://infoshopik.com/wp-content/uploads/2021/12/lectrum-videokurs-po-typescript-2020-324x324.jpg)
![[Яндекс.Практикум] Мидл фронтенд-разработчик (2021) [Часть 5 из 5]](https://infoshopik.com/wp-content/uploads/2021/12/jandeks.praktikum-midl-frontend-razrabotchik-2021-chast-1-iz-5-324x324.png)
![[WebForMyself] Python. Полное руководство (Андрей Кудлай) (2019)](https://infoshopik.com/wp-content/uploads/2021/12/webformyself-python.-polnoe-rukovodstvo-andrej-kudlaj-2019-324x324.jpg)
![[WebForMySelf] JavaScript. Полное руководство для современной веб-разработки (2019)](https://infoshopik.com/wp-content/uploads/2021/12/webformyself-javascript.-polnoe-rukovodstvo-dlja-sovremennoj-veb-razrabotki-2019-324x324.jpg)
![[Talkpython] MongoDB для Python разработчиков (2019)](https://infoshopik.com/wp-content/uploads/2021/12/talkpython-mongodb-dlja-python-razrabotchikov-2019-324x324.jpg)

![Курс по T-SQL Путь программиста от новичка к профессионалу. Уровень 3 - Эксперт [2020]](https://infoshopik.com/wp-content/uploads/2021/12/kurs-po-t-sql-put-programmista-ot-novichka-k-professionalu.-uroven-3-jekspert-2020-324x324.png)
![[Глеб Михайлов] А/Б-тесты с Глебом Михайловым (2024) [Stepik]](https://infoshopik.com/wp-content/uploads/2024/02/gleb-mihajlov-ab-testy-s-glebom-mihajlovym-2024-stepik-324x324.png)
![[Slurm] [Слёрм] [Павел Селиванов, Сергей Бондарев] Kubernetes База видеокурс (2020)](https://infoshopik.com/wp-content/uploads/2021/12/slurm-sljorm-pavel-selivanov-sergej-bondarev-kubernetes-baza-videokurs-2020-324x324.png)
![[Алексей Рябов] HashiCorp Vault (2023) [rebrain]](https://infoshopik.com/wp-content/uploads/2023/09/aleksej-rjabov-hashicorp-vault-2023-rebrain--324x324.png)
Отзывы
Отзывов пока нет.