Июнь 10

Як пандемія змінює стратегію для клаудів і DevOps

Роль клаудів усе зростає, а в нових реаліях пандемії та закриття цілих країн на карантин стає критично важливою для багатьох бізнесів. Тому сьогодні компанії готові (а інколи й змушені) пройти extra mile, щоб швидко втілити ті зміни, на які довго не зважувалися. Адже це дає можливість не лише вистояти в турбулентні часи, а й отримати додаткові конкурентні переваги.

Я поділюся своїм баченням того, чому це відбувається, які саме потреби з’являються у компаній та які нові можливості криза відкриває сервісним компаніям у сфері клаудів та DevOps.

Які зміни спричинила пандемія

Сервісним компаніям важливо розуміти, що відбувається у клієнтів, які актуальні потреби вони мають і чим ми можемо поліпшити їхній бізнес, щоб витиснути максимум з нинішньої ситуації.

Зараз клієнтів можна розділити на три умовні категорії:

Неочікувано стрімко зростають — кількість клієнтів збільшилася в сотні разів за лічені дні. ІТ-інфраструктури компаній до цього не були готові, відповідно не можуть витримати такого навантаження. Сюди насамперед належать ритейлери із сильною онлайн-складовою, онлайн-сервіси та e-learning платформи.
Неочікувано стрімко падають — попит знизився майже до нуля, доходи падають. Найважливіше для цих компаній — скоротити операційні витрати до мінімуму, зекономити кожен долар, аби вберегти бізнес і втратити якомога менше людей. Зменшення витрат на підтримку ІТ-інфраструктури відіграє важливу роль. Саме в цьому компанії потребують нашої допомоги. У категорію потрапляють, зокрема, туристична галузь та офлайн-ритейл.
Поки що стабільні — теперішня ситуація мінімально вплинула на основний бізнес цих компаній. Але вони не знають, що їх чекає далі.

Невизначеність майбутнього — спільна риса для усіх категорій. Зараз ніхто не знає, як ситуація розгортатиметься. Це призводить до таких наслідків:

Навіть ті компанії, які наразі у виграші, не готові до значних трансформацій та інвестицій в ІТ-інфраструктуру. Такі дорогі та складні послуги, як зміна архітектури чи модернізація програм, у найближчому майбутньому будуть актуальними лише для невеликої кількості компаній, які потребуватимуть діджитал-трансформації. Основна частина намагається не ризикувати та вкладати лише в те, що принесе миттєву користь.
Фокус зміщується з довгострокових стратегій, які приносять більшу вигоду в далекій перспективі (від 1-2 років), на короткострокові, результат яких є слабшим, однак відчутним уже за кілька місяців чи навіть тижнів.
Пріоритетом стає масштабованість (scalability) та ефективність як інфраструктури, так і бізнесу загалом. Адже нинішній, сильно збільшений/зменшений попит потенційно повернеться до попереднього рівня, щойно ситуація стабілізується. Але може статися і черговий різкий стрибок. Компанії розуміють, що їхня інфраструктура повинна швидко адаптуватися, щоб бізнес міг функціонувати в різних умовах. Це має відбуватися оперативно і без значних інвестицій (наприклад, без побудови датацентру, закупівлі серверів).

Віртуальний сервер у клауді — це вихід, оскільки його можна орендувати всього за кілька хвилин і так само швидко від нього відмовитися. Цей підхід усі давно знають, але раніше мало хто був готовий відмовитися від попередніх інвестицій, перевчити персонал, та ще й змінити сотні процесів у компанії.

Тож виділю кілька ключових думок щодо того, куди рухається ринок DevOps і клауд-сервісів.

Оптимізація вартості інфраструктури

За даними State of the Cloud Report, у 2020 році 82% ентерпрайз-компаній вважають оптимізацію витрат на інфраструктуру в клауді основним пріоритетом. А для понад третини з них це великий виклик. З традиційними датацентрами ситуація ще гірша — більшість компаній стверджує, що не є оптимізованими і це призводить до перевитрати близько 30% ресурсів.

Ми регулярно отримуємо від клієнтів запити на ці послуги. Але нині оптимізація стає ще актуальнішою. Для частини компаній це питання виживання. І навіть ті, у кого ситуація більш-менш стабільна, розуміють, що настав час переглянути свої практики.

Коротко про те, який вигляд має оптимізація

Спочатку нам потрібно зрозуміти стан клауд-інфрастуктури клієнта на цей момент. Для цього ми вивчаємо документацію, рахунки, інструменти, які компанія використовує, автоматизацію, проводимо інтерв’ю ключових стейкхолдерів. Це дає змогу підготувати детальний звіт і на його основі розробити стратегію, що зазвичай охоплює короткостроковий та довгостроковий плани оптимізації витрат.

Що отримує клієнт? Як засвідчує практика, реалізація короткострокового плану може скоротити бюджет на 15-30%, довгострокового — на 20-50%. Навіть для бізнесів, які пішли на спад, оптимізація витрат — це не тільки питання зекономлених коштів, а й інвестиція в те, наскільки швидко та ефективно вони зможуть відновити процеси, коли ситуація внормується і потрібно буде повертатися до активної роботи.

Один з наших останніх кейсів — клієнт витрачав понад 300 тис. доларів на місяць на підтримку клауд-інфраструктури в Azure, при тому вона була досить непогано оптимізована і використовувала більшість best practises. Компанія прийшла до нас у кінці лютого із запитом скоротити цю суму щонайменше на 35%, щоб мати змогу зберегти команду. Станом на кінець березня нам вдалося зменшити її до 243 тис. доларів, до кінця квітня — до 157 тисяч. Серед основних кроків, які допомогли цього досягти, виділю такі:

Об’єднали регіональні Dev/QA/UAT в один глобальний розшарений Kubernetes-кластер.
Залишили на виділеному пулі серверів лише ворклоади, які погано переживають перезапуск. Більшість ресурсів у кластері живе на спот-інстансах.
За допомогою автоматизації перевели більшість QA/UAT на on-demand модель, де середовище стартує лише тоді, коли воно потрібне, і автоматично зупиняється за деякий час.
Внесли багато змін до профілю ресурсів для зменшення їхнього performance. Це вплинуло на такі метрики, як Build Time/Test Time. Але оскільки під час кризи процес розробки перейшов у режим «лише пріоритетні продукти», загальна кількість комітів, білдів зменшилась, завантаженість всієї системи теж знизилася, відповідно Time To Production (Market) майже не змінився.

Ви можете спитати, чому до цієї оптимізації дійшли лише тепер? Адже все можна було зробити і в спокійні часи. І ви маєте слушність, цю інфраструктуру і процеси варто було оптимізувати вже давно. Частина з цих імпрувментів була навіть закладена в цьогорічному плані. На жаль, тільки криза допомогла бізнесу зрозуміти важливість ефективності їхньої ІТ-інфраструктури та процесів. Лише загроза втратити цей бізнес підштовхнула нарешті пріоритезувати час девелоперів на потрібні зміни в коді, сфокусувати автотести і DevOps-команди на розробку нового підходу для тестування продуктів та інфраструктури. Вже зараз менеджмент активно планує розгортання цього нового підходу на Production, що допоможе зекономити ще приблизно 30-40 тис. доларів на місяць.

Як результат компанія буде мати вдвічі більше cost-efficient інфраструктуру, ніж до цього.

Розширення інфраструктури завдяки використанню публічних клаудів

Ведення основної діяльності у власних датацентрах має значні недоліки, серед яких високий TCO (total cost of ownership) при низькому ROI (return of investments) і складність масштабування потужностей. Тому все більше компаній почали переходити на гібридні клауди. За даними IDG, кількість організацій, які хоча б одну програму чи частину інфраструктури ведуть у публічному клауді, зросла з 51% у 2011 році до 73% у 2018 році, а на сьогодні вже перевищила 90%. Близько 44% організацій вже використовують одночасно приватний і публічний клауди, щоб надавати один зі своїх сервісів.

Ця тенденція продовжує завойовувати бізнес, оскільки це оптимальний шлях збільшити ефективність наявної інфраструктури з погляду співвідношення витрачених коштів до отриманого в результаті прибутку. Але ще важливіше — те, що це тепер не треба повністю змінювати структуру свого рішення, навички команд та інструменти управління.

Немало компаній зіткнулися з проблемою, що інфраструктура і бізнес загалом не можуть відповідати на виклики настільки швидко, як це потрібно. Відповідно ще більше компаній і ще швидше будуть переходити на гібридні клауди. Тому цей тренд зовсім не новий. Тоді що ж змінилося?

Близько 2/3 компаній, які почали переходити на гібридну модель, в клаудах розміщували лише нові проєкти, але не були готові вкладати ресурси в перенесення туди основного бізнесу, що приносить найбільше доходів і на який значно посилилось навантаження зараз. В таких випадках гібридний клауд виглядає так: весь основний бізнес ведуть у датацентрі, нові проєкти запускають у клауді, але все одно зв’язуються з датацентром, щоб використовувати ті дані, які в ньому зберігаються. Відповідно те, що ці компанії мають ресурси в клауді, не допомагає у ситуації, коли потрібно швидко масштабувати основний бізнес.

Про мультиклауд

Ще одна актуальна проблема — те, що не лише компанії переживають зростання навантаження на сервер, а й клауд-провайдери. Наприклад, навантаження на Azure за березень збільшилося на понад 700%. Це впливає на його користувачів — деякі з них дуже залежать від доступних ресурсів для short-time bursts. Оптимальне рішення в такій ситуації — розширитися на інший публічний клауд.

Серед найбільших в Європі користувачів одного з публічних клауд-провайдерів — онлайн-ритейлер, якому з початком епідемії потрібно було швидко розширити бізнес. Але він стикнувся відсутністю вільних ресурсів у датацентрах свого клауд-провайдера. Тому повернувся до мультиклауд-стратегії, яку ми пропонували йому торік. Тепер ми будуємо для цієї компанії рішення, яке в короткостроковій перспективі допоможе переводити частину навантаження на клауд іншого провайдера. А в довгостроковій перспективі дасть змогу вільно балансувати сервіси між кількома провайдерами.

Що ці зміни означають для DevOps-інженерів

Зараз не з’являються нові технології чи тенденції, але змінюється фокус і пришвидшуються ті зміни, які почалися вже давно. Тому інженери мають бути готовими до цього, повинні навчатися, набувати нових вмінь.

Із ключового: експертиза в роботі з клаудами та контейнерними платформами — must have, без цього важко знайти проєкт. Не дуже віддалена перспектива — рішення для гібридних/мультиклаудів і Workload Mobility: Google Anthos, OpenShift і VMware Taznu.

Щодо джерел, то я не берусь радити, оскільки тут немає чогось одного, що можна вивчити та одразу стати експертом. До того ж ми всі по-різному сприймаємо інформацію. Я за те, щоб зрозуміти напрямок, в якому рухатися, і підбирати для себе найзручніші формати — технічні статті, відео на YouTube, курси на Coursera тощо. Потрібно багато вивчати, постійно стежити за новинами і трендами. Так, це складно і забирає немало часу, але водночас підвищує шанси бути успішним у професії.