DevOps дайджест #25: как деплоить за 50ms и не просыпаться в 4 утра от алертов

В выпуске: как построить Graphite stack, сделать distributed tracing, научиться Helm, а также классные Grafana дашборды для вдохновения.

CI/CD

How Dark deploys code in 50ms
Очень интересно, как ребята построили свои процессы. Вместо обычных 35 шагов у них 6. Docker билдить не обязательно, в контейнер деплоить не обязательно. Все не как у людей! Но очень интересный взгляд, как можно сделать по-другому.

Modeling continuous delivery
Автор рассматривает проблемы, которые есть в CD процессах. В данной статье не так интересно его решение (otto), как рассматриваемые проблемы. Думаю, вы найдете полезности для себя.

Creating a Helm Chart Repository — Part 1, Part2, Part3
Качественный цикл статей из 3 частей, как организовать работу с Helm, Helm репозиториями, чартами, тестированием и т. д. Сверху на все это можно отлично накрутить helsman.

Мониторинг

Big-picture архитектуры Graphite stack в AWS

Scaling Graphite in a cloud environment
Как построить Graphite stack в клауде, чтобы он обрабатывал 400k data points p/sec в облаке на 14 инстансах c5d.4xlarge.

Retaining Logs For A Year: Boring or Useful?
Сколько времени действительно полезно хранить логи? В течение какого времени они будут для вас полезны? В большинстве случаев ответ индивидуален и зависит от условий работы, типа сервиса и многих остальных факторов.

Tinder & Grafana: A Love Story in Metrics and Monitoring
Хороший доклад об истории использовании и улучшении Grafana в Tinder. В докладе обсуждается процесс миграции с Cloudwatch на Prometheus и потом на prometheus-operator.

Public Wikimedia Grafana graph

Worth a Look: Public Grafana Dashboards
Классные открытые Grafana дашборды для вдохновения. Есть ссылки на GitLab, Wikimedia, CNFC, Zabbix и другие.

Куда отправлять оповещения, если критично и не очень

Nobody wants to be woken up at 4 am
Хорошая статья с отсылками к SRE Book от Google. В двух словах: если вам приходит алерт, вы на него смотрите и ничего не делаете или откладываете на потом — нужно пересмотреть необходимость этого оповещения. Не нужно присылать severity:INFO или severity:WARNING в Opsgenie.

Lessons learned

When do you need a Site Reliability Engineer?
Кто такой SRE? Какие зоны ответственности? Отличный ответ от инженера из InfluxData.

Intro to Distributed Tracing
Хорошая статья о Distributed Tracing: автор рассматривает причины возникновения, основные фреймворки и реализации. Если у вас еще нету Zipkin/Jaeger — будет сверхполезно.

debugging in production
Очередное подтверждение, что далеко не всем статьям и блогам можно доверять. Автор рекомендует делать coredumps в production окружении. Напомню, это антипаттерн — debug должен быть где-угодно, но не в реальном «боевом» окружении. Что делать, если не воспроизводится? Унифицировать окружения, сделать их максимально идентичными, воспроизводить, реплицировать трафик. Но не делать coredumps на запросах реальных пользователей.

Serverless Security Workshop
Workshop, как правильно защитить и построить безопасность для Serverless приложений в AWS Lambda.

How to write idempotent Bash scripts
Если вы все еще пишете bash скрипты (а я знаю, периодически приходится), то лучше делать их идемпотентными.

Lessons learned from running Kafka at Datadog
В компании более 40 кластеров с Kafka, и они делятся опытом о своих ошибках и решениях. В статье много графиков и вариантов решения. Например, их kafka-kit.

В заключение

В следующий DevOps дайджест мы планируем добавить еще несколько авторов. Основная причина — разность экспертиз. Вторая — bus factor. Вместе мы сможем сделать более обширный и качественный дайджест. Пока есть 2 вакантных места, подробнее — в моем Telegram-канале: DevOps дайджест на dou.ua


← Предыдущий выпуск: DevOps дайджест #24

Похожие статьи:
У свіжому випуску новинного дайджесту DOU News розповідаємо про запуск «єБронювання», Defense-tech розробки, які допомагають Україні наближати...
На middle рівні найкраще заробляють девелопери Java, а на джунівському — .Net. Senior Node.js розробники заробляють більше, аніж Python i PHP...
Українська IT-компанія Readdle більше не працює в росії. Компанія заблокувала всі свої застосунки в російських App Store та Google Play....
Южнокорейская компания LG Electronics представила на российском рынке портативную Bluetooth колонку LG SOUND360 NP7860W, которая отличается...
У свіжому випуску новинного дайджесту DOU News розповідаємо про ризики для волонтерів, скільки ІТ-компанії донатять...
Яндекс.Метрика