DevOps дайджест #25: как деплоить за 50ms и не просыпаться в 4 утра от алертов

В выпуске: как построить Graphite stack, сделать distributed tracing, научиться Helm, а также классные Grafana дашборды для вдохновения.

CI/CD

How Dark deploys code in 50ms
Очень интересно, как ребята построили свои процессы. Вместо обычных 35 шагов у них 6. Docker билдить не обязательно, в контейнер деплоить не обязательно. Все не как у людей! Но очень интересный взгляд, как можно сделать по-другому.

Modeling continuous delivery
Автор рассматривает проблемы, которые есть в CD процессах. В данной статье не так интересно его решение (otto), как рассматриваемые проблемы. Думаю, вы найдете полезности для себя.

Creating a Helm Chart Repository — Part 1, Part2, Part3
Качественный цикл статей из 3 частей, как организовать работу с Helm, Helm репозиториями, чартами, тестированием и т. д. Сверху на все это можно отлично накрутить helsman.

Мониторинг

Big-picture архитектуры Graphite stack в AWS

Scaling Graphite in a cloud environment
Как построить Graphite stack в клауде, чтобы он обрабатывал 400k data points p/sec в облаке на 14 инстансах c5d.4xlarge.

Retaining Logs For A Year: Boring or Useful?
Сколько времени действительно полезно хранить логи? В течение какого времени они будут для вас полезны? В большинстве случаев ответ индивидуален и зависит от условий работы, типа сервиса и многих остальных факторов.

Tinder & Grafana: A Love Story in Metrics and Monitoring
Хороший доклад об истории использовании и улучшении Grafana в Tinder. В докладе обсуждается процесс миграции с Cloudwatch на Prometheus и потом на prometheus-operator.

Public Wikimedia Grafana graph

Worth a Look: Public Grafana Dashboards
Классные открытые Grafana дашборды для вдохновения. Есть ссылки на GitLab, Wikimedia, CNFC, Zabbix и другие.

Куда отправлять оповещения, если критично и не очень

Nobody wants to be woken up at 4 am
Хорошая статья с отсылками к SRE Book от Google. В двух словах: если вам приходит алерт, вы на него смотрите и ничего не делаете или откладываете на потом — нужно пересмотреть необходимость этого оповещения. Не нужно присылать severity:INFO или severity:WARNING в Opsgenie.

Lessons learned

When do you need a Site Reliability Engineer?
Кто такой SRE? Какие зоны ответственности? Отличный ответ от инженера из InfluxData.

Intro to Distributed Tracing
Хорошая статья о Distributed Tracing: автор рассматривает причины возникновения, основные фреймворки и реализации. Если у вас еще нету Zipkin/Jaeger — будет сверхполезно.

debugging in production
Очередное подтверждение, что далеко не всем статьям и блогам можно доверять. Автор рекомендует делать coredumps в production окружении. Напомню, это антипаттерн — debug должен быть где-угодно, но не в реальном «боевом» окружении. Что делать, если не воспроизводится? Унифицировать окружения, сделать их максимально идентичными, воспроизводить, реплицировать трафик. Но не делать coredumps на запросах реальных пользователей.

Serverless Security Workshop
Workshop, как правильно защитить и построить безопасность для Serverless приложений в AWS Lambda.

How to write idempotent Bash scripts
Если вы все еще пишете bash скрипты (а я знаю, периодически приходится), то лучше делать их идемпотентными.

Lessons learned from running Kafka at Datadog
В компании более 40 кластеров с Kafka, и они делятся опытом о своих ошибках и решениях. В статье много графиков и вариантов решения. Например, их kafka-kit.

В заключение

В следующий DevOps дайджест мы планируем добавить еще несколько авторов. Основная причина — разность экспертиз. Вторая — bus factor. Вместе мы сможем сделать более обширный и качественный дайджест. Пока есть 2 вакантных места, подробнее — в моем Telegram-канале: DevOps дайджест на dou.ua


← Предыдущий выпуск: DevOps дайджест #24

Похожие статьи:
Если Вы хотите быть готовыми к новым изменениям, которые станут стандартом в ближайшем будущем и если Вам интересны новые подходы...
Дмитро почав займатися програмуванням в 11 років, пізніше виграв кілька спеціалізованих CAD/CAM/CAE змагань. Він захоплюється питаннями...
Через нещодавні скорочення в західних IT-компаніях постало чимало питань про те, що тепер буде із зарплатами й наймом,...
В выпуске: производительность в ASP.NET Core, Apache Kafka — не для Event Sourcing, впечатления от Amazon Hiring Event. .NET Practical samples for ASP.NET...
Google використає свої офіси в Польщі для того, щоб допомогти українським біженцям. Про це розповідає CNBC. Компанія...
Яндекс.Метрика