Дек. 31

Что нужно знать о Value Driven Testing. Анализируем ценность и экономическую целесообразность тестирования

Когда ты работаешь финансовым аналитиком, то постоянно высчитываешь сотни показателей и индексов, сравниваешь периоды и делаешь выводы о прошлом, настоящем и будущем. Модели Альтмана, Таффлера, Бивера, ретроспективный и инвестиционный анализ наряду с расчетом коэффициентов финансовой устойчивости однозначно дают ответ на вопрос «Что делать?».

Что нужно сократить, что повысить, что выгодно, что нет, где эта пресловутая точка безубыточности и каков срок окупаемости проекта. В экономических вузах вас не научат кодить, однако с первого курса покажут, как определять целесообразность той или иной активности, считать прибавочную стоимость продукта и знать, как пел Виктор Цой, когда «Игра не стоит свеч, а результат — труда...»

«Однако при чём тут тестирование?» — спросите вы. «А почему бы и нет?» — отвечу вам я. Тестирование и разработку ПО в целом, как и любую хозяйственную деятельность, можно анализировать.

Согласен, легче провести финансовый анализ ІТ-проекта в целом, чем отдельно взятого его процесса, к тому же тестирование само по себе прибыли не приносит. Означает ли это, что на предприятии невозможно проанализировать работу конкретного цеха или себестоимость одной из стадий производства? Нет. Конечно, возможно. Анализ тестирования с точки зрения целесообразности не только возможен, но и необходим.

Ты пчела, я пчеловод, а мы любим мед

Размышляя над процессом труда, Карл Маркс говорил, что даже самый плохой архитектор отличается от наилучшей пчелы тем, что, прежде чем построить ячейку из воска, он построит ее в своей голове. По мнению автора «Капитала», пчелы лишены способности системно мыслить, анализировать и рационализировать свой труд. Архитектор и пчелы в контексте этой статьи не случайны. Так образ IT для многих непосвященных представляется неким цветущим тёплым садом, который манит их запахом ароматного кофе и печенья, словно пчёл. Пчел — простых исполнителей — становится всё больше, и всё сильнее чувствуется потребность в архитекторах, которые бы оптимизировали рабочие процессы и повысили их рентабельность. Это, как и тщательное мытье рук, стало особенно актуальным в 2020 году.

Паразиты

Лучшим фильмом 2020 года стала южнокорейская лента «Паразиты», повествующая о том, как один за другим члены семьи забираются в дом, оболванивая его хозяев, и паразитируют на всём готовеньком. Конечно, любые аналогии с «войти в IT» тут случайны. Однако представьте себе чисто гипотетически, что в какой-то команде есть всё же такие паразиты, которые вроде как делают то, что нужно, но никак не пытаются оптимизировать процессы, а значительная часть их активностей вообще убыточна для проекта.

Я говорю сейчас об экстенсивном тестировании, бессмысленных и неинформативных репортах, засилье мануальных проверок, метрик ради метрик, о беззубых тест-кейсах и убыточной автоматизации. Благодаря умелым действиям бизнес-аналитиков и PM’ов затраты заказчика на проект постоянно растут, увеличивается штат, состав и величина накладных расходов. И если вначале кастомер принимал решение о сотрудничестве, исходя из выгодного соотношения цены и качества, то потом подобное «грантоедство» заставило его осознать, что с таким же успехом он мог нанять персонал у себя в стране. Но уже поздно что-то менять, заказчик на крючке у паразитов.

No money, no honey

Чтобы понять, как обстоят дела с тестированием на проекте, нужно проанализировать его эффективность с точки зрения качества создаваемого продукта и процессов. Тут можно рассчитывать плотность дефектов, разрывы, утечки, эффективность тест-кейсов, RC, FDP, DDP, PTC, MTTD, TDE и десятки других метрик тестирования. Но, чтобы определить рентабельность такого тестирования, необходимо считать деньги. Деньги и их возрастающий поток — основная цель заказчика в большинстве случаев разработки ПО.

Чтобы правильно принимать управленческие решения, тест-менеджеру необходимо в полной мере ориентироваться в себестоимости активностей по тестированию, видеть зоны развития и пути оптимизации процессов. Заказчику также важно понимать, за что он платит и почему, где он теряет, а где зарабатывает. Один в поле не воин, и задача так называемого архитектора постараться заставить пчел реально осознать, сколько денег они приносят заказчику, сколько помогли сэкономить. Сэкономленные деньги не обязательно, но могут формировать фонд для потенциального увеличения оплаты труда тех же пчел.

Цена и ценность

Любое качество имеет свою цену: Cost of Quality = Cost of Poor Quality + Cost of Good Quality:

Общая стоимость тестирования достаточно велика, но стоит лишь оценить стоимость плохого тестирования, как она уже кажется вполне приемлемой. Уоррен Баффет как-то сказал, что цена — это то, что вы платите, а ценность — то, что получаете. И не всегда они совпадают. Качество ещё не означает ценность. Попробуйте сегодня продать очень качественную печатную машинку либо убедить заказчика, что для него ценнее будет зарелизить фичу не послезавтра, а через год, ведь за это время вы ещё лучше всё протестите и качество будет выше. Не получится. Дорога ложка к обеду, и time to market никто не отменял.

Задача в том, чтобы достичь оптимального соотношение цена/качество для заказчика. Почему оптимального? Потому что по мере увеличения затрат на поиск дефектов и их устранения стоимость поломки будет снижаться до тех пор, пока не будет достигнута оптимальная точка, после которой дальнейшее увеличение активностей по тестированию станет экономически нецелесообразным.

Назовем такой подход, в основе которого лежит анализ ценности и экономической целесообразности тестирования, vаlue based, или value driven testing, и рассмотрим его на примере.

QA team состоит из трех Manual QA. Это не Fixed Price проект, и ценообразование тут а-ля Time&Materials. У нас 826 мануальных тестов, нехватка времени и целый вагон проблем с качеством. И стоит задача улучшить и оптимизировать тестовый процесс.

К нам едет ревизор!

Начнем с масштабной ревизии костов. Не прибегая ни к ПСБУ, ни к МСФО, расходы можно поделить на: капитальные, или CAPEX (покупка серверов, лицензий для софта, виртуалки и так далее), операционные (расходы на прогон нагрузочных и автотестов, работу серверов, репортинг и настройку окружения), прямые (зарплата, расходы на обучение) и косвенные (дебагинг, повторное тестирование, обновление и исправление тест-кейсов). Для себя также фиксируем постоянные и переменные расходы. Вовсе не обязательно следовать боэмовской COCOMO, всё намного прозаичнее.

Первое, с чего стоит начать, — определить, сколько времени уходит на ту или иную тестовую активность в часах, а затем проанализировать, как можно сократить это время. Тут и снижение трудоёмкости, относительная экономия труда и борьба с неявным абсентеизмом QA-команды.

W = I*T, где W — трудозатраты, I — постоянная интенсивность труда или наш перформанс, а T — время работы QA. Краткий стиль оформления, чёткая приоритизация, уменьшение повторений в шагах и прочая оптимизация тест-кейсов помогла сократить их количество с 826 до 611, что, в свою очередь, снизило затраты времени на их прохождение в три раза. Эта активность и выработанные правила игры для всей команды экономили время на проектирование и выполнение тестов на будущее. Пример оптимизации теста:

Аналогичные меры коснулись и активностей по написанию документации (наполнение Wiki-проекта), репортинга и внутренних коммуникаций. Но несмотря на то, что затраты труда (времени) снижались, они достигли своего предела (см. график). Скоуп регрессии увеличивался, и хотя освободившееся часы давали некий запас прочности, нужно было что-то ещё.

Экономия от масштаба

Left shit testing — основа теории тестирования. На мой взгляд, это чем-то похоже на концепцию стоимости денег во времени. Один доллар сегодня дороже, чем будет стоить завтра, так как его можно инвестировать уже сегодня. А найденный баг сегодня также ценнее, чем будет завтра, поскольку его можно раньше исправить.

Преимущество достигается за счет скорости и снижения простоев — чем быстрее мы получаем деньги и находим дефекты, тем лучше. Увеличение количества проверок при одновременном снижении себестоимости одной проверки неминуемо приводит к экономии на масштабе. Да здравствует её величество автоматизация! Рассмотрим этот процесс через призму экономики:

где с — себестоимость выполнения одного теста, TFC — общая величина постоянных издержек, Q — количество запускаемых тестов, AVC — средние переменные издержки.

Следовательно, увеличение количества проверок за единицу времени и снижение средних переменных расходов на тестирование — это два ключа в ваших руках к снижению себестоимости нахождения одного дефекта.

Добавление QA Auto в команду увеличило постоянные расходы QA Team, однако в перспективе обещало компенсировать это ростом производительности.

Точка безубыточности автоматизации была достигнута не сразу, а лишь когда значительная часть тестов уже ранилась автоматически. Расчёт критического объема тестов для автоматизации можно вычислить, вновь применив экономический анализ:

Критический объём = Постоянные затраты в целом на автоматизацию / (себестоимость выполнения одного мануального теста — переменные затраты на выполнение одного автотеста).

Эффект операционного левериджа начал снижаться, как и средние переменные затраты на тестирование, а у QA Manual стало больше времени на experience-based тестирование. Это позволило повысить оборачиваемость регрессионных ранов и значительно увеличить скоуп спринтов.

Такой положительный тренд говорил о том, что целесообразно увеличить темпы прироста автоматизации, но добавление еще одной единицы QA Auto не вытягивало ROI из-за связанного с этим увеличения постоянных прямых расходов (оплаты труда). Решение было простым и быстрым — взять QA Auto Trainee с испытательным сроком три месяца. При отсутствии дополнительных прямых расходов (оплаты труда второго QA Auto) затраты на онбординг незначительно снизили производительность первого QA Auto, но не изменили общую тенденцию к росту.

Стадо бизонов

Стадо бизонов бежит со скоростью самого медленного бизона, и если ваши автоматизаторы работают быстро, но вынуждены ждать мануальных тестов от QA Manual, то вся их скорость теряет смысл. Это bottleneck проекта, и его нужно срочно исправлять.

Если увеличить контроль за написанием мануальных тестов и привести формат их написания к единому стандарту, значительно уменьшиться время QA Auto на их разбор и конвертацию. Конечно, не нужно бросать все силы на срочную подготовку бессмысленных мануальных тестов для автоматизаторов для галочки. Тесты должны быть надежными сетями для ловли багов, а их поток должен лишь с небольшим запасом покрывать производительность Automation Team.

В противном случае излишнее нагромождение тестов будет бессмысленным, а потери времени на их «простой» экономически необоснованными. Это касается всего процесса тестирования от планирования до составления summary-репорта. Никаких ботлнеков.

Выстраивать конвейер непросто, но хорошо налаженная производственная линия гораздо ценнее сотни отдельных станков. Если хорошенько покопаться и проанализировать, можно убрать множество лишних активностей. И очень важно это сделать до автоматизации процессов. Иначе внедрение автоматизации лишь увеличит производительность такого сизифова труда.

Недостаточно делать все, что от тебя зависит. Как говорил Дёминг, сначала нужно знать, что делать, а тогда уже делать всё, что от тебя зависит, улучшая процессы. А из всех моделей по улучшению мне больше всего нравится TMMi, пятый уровень которой, как говориться, имеет много общего с идеальным мужчиной: все слышали, но мало кто видел.

Но стремится к этому нужно, и если мы намерены нести ценность заказчику, то самое время определиться, где мы сейчас и куда идём. Ведь обычно, как пела группа «Кино», «Все говорят, что мы в-месте, все говорят, но немногие знают, в каком». Внедрение модели по улучшению тестирования — тоже желательная часть вашего value driven testing.

Риск или холодный расчет

Бывает, что, несмотря на найденные баги, принимается решение релизить версию. Такие новости часто демотивируют тестировщиков. Начинаются рассуждения по типу «ну, сами виноваты, что хотят, пусть и делают», «как можно с этим релизить», «смысл было проверять» и так далее. Есть и обратная ситуация, когда тестили-тестили, а багов не нашли особо. Все знают, что ПО, как и человек, не бывает абсолютно здоровым, а бывает недообследованным, поэтому и вопросы возникают «почему мало багов», «как именно проверяли». Но если посмотреть на эти ситуации с точки зрения ценности, то всё станет на места.

Рассмотрим пример. Вы собираетесь релизить фичу, которая принесёт условно $75K. С вероятностью в 40% в этой версии может содержаться критический баг, и если этот дефект просочится к пользователям, то связанные с этим расходы составят $150K. Можно не рисковать — ничего не релизить, но и профита тогда не будет.

Если релизим сразу, то с учетом вероятности появления критического бага ожидаемая чистая выгода составит: $75K — ($150K * 40%) = $15K

Решение	Нет бага	Есть баг
Релизим	75	-75
Не релизим	0	0

Можно потратить деньги на тестирование, пускай тоже $15K. Тестирование может найти баг, а может и не найти, пускай 50/50, или 40% делим на 2. В таком случае вероятность того, что баг попадёт в релиз, снизится с 40% до 20%. Теперь давайте считать деньги:

Решение	Нет бага	Баг есть
Решение	Нет бага	Не найден нами	Найден нами
Релизим без тестирования	75K	-75K	-75K
Не релизим	0	0	0
Тестируем и релизим, если только дефект исправлен	-15K	-15K	60K
Тестируем и релизим в любом случае	60K	-90K	60K

Перемножив вероятности наступления событий и стоимости их последствий, определим, какое решение будет более выгодным.

Не релизим вообще: $0K
Релизим сразу без тестирования: $15K (это мы уже определили выше)
Тестируем и релизим, если только дефект исправлен: −15K * 60% + (-15K * 20%) + 60K * 20% = $0K
Тестируем и релизим в любом случае: 60K * 60% + (-90K * 20%) + 60K * 20%= 30K

Примечательно, что расходы на фикс не брались во внимание, иначе третья стратегия была бы еще менее привлекательной. Это ни в коем случае не означает, что не нужно фиксить баги, однако факт: наиболее выгодной стратегией оказалась четвертая — тестить продукт и релизить в любом случае. В это сложно поверить, но для конкретного примера это так. Даже если прошедшие тесты не нашли багов (при условии, что они способны были), то они действительно приносят реальную экономическую ценность, снижая вероятность утечки ошибок.

Как следствие, намного важнее величина тестового покрытия (вероятности обнаружения дефектов), чем фактическое количество обнаруженных багов. Это как морской бой. Выигрывает тот, кто добьется большего покрытия поля соперника первым, это важнее, чем просто подбитые корабли.

Тестовые активности будут иметь ещё большую ценность, если применять любую из моделей Risk-Based Testing, будь это FMEA, PRA, PRISMA. Тестирование, основанное на рисках, грамотно приоритизирует ваши тесты, научит всю команду и заказчика правильно их искать и оценивать, а в качестве результата обезопасит будущие релизы. Подверженность риску можно найти, перемножив вероятность использования функционала на вероятность фейла и, собственно, цену его последствий. Имплементация такого подхода потребует затрат, однако качество продукта и спокойный сон того стоят.

Теперь, когда риски известны, оценены и нашли выражение в соответствующих приоритетах тестов, наиболее рисковые фичи будут проверены детальнее и в первую очередь, а пример с кораблями будет выглядеть так:

Леверидж рисков

Использовать результаты финансового анализа при принятии управленческих решений я рекомендую в разных ситуациях.

Рассмотрим пример. На вашем проекте существует вероятность потери данных на тестовом сервере 20%. Если это произойдет, стоимость такой потери (сроки + стоимость восстановления данных) составит $20K.

Оценим риск: 20% * $20K = $4K

Рисков можно избегать, их можно принимать, снижать и передавать. Но что из этого выбрать? Есть вариант внедрить механизм бэкапа и уменьшить риск до 5%. Влияние будет прежним, так как в случае сбоя на сервере мы также потеряем, а стоимость работ по бэкапу составит $2K. Итак:

Вероятность — 5% (после предпринятых мер)

Потери — $20K (такие же)

Оценка риска после 5% * $20K = $1K

Расходы на уменьшение риска — $2K

Рассчитаем леверидж уменьшения риска: ($4K — $1K) / $2K = 1.5

Полученная величина (>1) говорит о том, что такие меры целесообразны.

Можно рассмотреть вариант передачи риска, использовав услуги аутсорса. Если выгода второго варианта окажется большей, но команда остановится всё-таки на самостоятельном внедрении механизма бэкапа, то она будет нести альтернативные издержки или издержки упущенных возможностей.

Похожие сравнения необходимо проводить и с ROI, выбирая лучший вариант.

При расчете ROI есть масса нюансов в зависимости от проекта и вида тестирования. Основная сложность — правильно рассчитать получаемую выгоду. Без анализа затрат и себестоимости тестовых активностей сделать это корректно будет проблематично. Снижение затрат по автоматизации происходит в основном за счет параллельного запуска тестов, переиспользования кода, снижения затрат на анализ результатов, автоматизации создания отчётов о тестировании и настройки тестового окружения.

Проблема выбора

Впереди новый год, а значит, новое бюджетирование тестовых активностей. Допустим, у вас два проекта или две отдельные команды тестировщиков A и Z.

Кому направить средства на развитие и как не ошибиться в расчетах? Ставка дисконтирования проекта A 10%, а проекта Z 12% (из-за более продолжительного срока его реализации).

Показатели	Проекты по тестированию
Показатели	A	Z
Объем планируемых вложений	70K	68K
Количество периодов эксплуатации	2	4
Сумма планируемого чистого денежного потока	100K	110K
в том числе:
1-й период	60K	20K
2-й период	40K	30K
3-й период	-	30K
4-й период	-	30K

При прочих равных условиях вроде как выгоднее предоставить бюджет развития проекту Z, поскольку он требует меньших вложений и лучше окупается.

Но доллар сегодня дороже, чем будет стоить завтра, поэтому следует определить чистый приведенный доход по каждому проекту:

Тут Fn — объём денежного потока за период n, а r — ставка дисконтирования.

Рассчитав итоговую настоящую стоимость чистых денежных потоков за минусом запланированных вложений, получим:

NPV (A) = 54545 + 33057 — 70000 = 17603

NPV (Z) = 17860 + 23910 + 21360 + 19080 — 68000 = 14210

Еще до расчета внутренней нормы доходности (IRR) очевидно, что более выгодно предоставить бюджет развития тестировщикам проекта A.

Все эти примеры не столько о финансах, как о мировоззрении в тестировании, о понимании смысла своей работы. Какую бы тестовую активность команда не начинала, неплохо бы думать о том, какую ценность она имеет для заказчика и конечных пользователей. Такой подход одинаково полезен всем как директору по тестированию, так и вновь испеченному джуну. Порой стереотипы о том, что созидателем является только разработчик, мешают тестировщику также любить и заботится о продукте как о своём детище. Это как обида злой феи, которую не пригласили на крестины принцессы. Вместо заботы она злорадно ожидает, когда малышка уколется веретеном, а потом скажет: «Я же говорила, тут баг на баге». Но мы не разрушаем, а создаём. Быть лишь хорошим исполнителем, регулярно осваивать бюджет и делать ровно столько, сколько сказали, можно, но и ценность этого соответствующая. Соответствовать ожиданиям — ещё не предвосхищать их.

И не важно, хотите вы вывести паразитов или обучить пчел, повысить производительность или просто обосновать свои действия менеджменту, ясно одно: value driven testing, взятое за правило всей командой, непременно вам в этом поможет.

Чтобы не пропустить новые статьи Владимира Арутина — подпишитесь на него в телеграм-боте Ленты DOU.