Chaos Monkey и цепочка поставок Netflix

Недавно у меня был разговор с Карлосом Креспо, главным операционным директором Inditex, материнской компании Zara, в котором он упомянул о программном инструменте, созданном Netflix более десяти лет назад для институционализации устойчивости системы. Название броское, и для лидеров цепочки поставок, пытающихся заново изобрести свои сети поставок в неспокойные времена, перед ним невозможно устоять. И тем не менее, GoogleGOOG
поиск по фразе «обезьяна хаоса в цепочке поставок» дал ровно одна цитатаот 2012.

Почему мы не применяем эту идею для обеспечения устойчивости цепочки поставок?

Что такое Обезьяна Хаоса?

Кокаин проходит программный инструмент, и, в более широком смысле, технический принцип, который случайным образом отключает части сложной системы, заставляя операторов восстанавливать работоспособность. Вроде как внезапная пожарная тревога, но ежедневно и в случайных формах и местах. Идея состоит в том, что умение быстро решать системные проблемы — это процесс обучения, который должен выиграть от более крутой кривой обучения.

Предыстория рассказывает о том, как Netflix масштабировала свой стриминговый бизнес на Amazon Web Services, переходя от доставки DVD к порогу дома клиента. На первый взгляд, это логичный подход к планированию избыточности системы, как и то, что вы ожидаете от НАСА, но на практике он использует культурную норму Netflix, позволяющую отдельным участникам решать свои собственные проблемы. Как записано в «Хаос ИнжинирингВ книге 2020 года Кейси Розенталь и Норы Джонс, которые первыми применили эту практику в Netflix, она сводится к пяти принципам:

  • Построить гипотезу об установившемся поведении
  • Варьируйте реальные события
  • Проводите эксперименты в продакшене
  • Автоматизируйте эксперименты, чтобы проводить их непрерывно
  • Минимальный радиус взрыва

Сочетание культуры и процесса в Netflix важно, потому что оно поощряет и использует подход к решению проблем с открытым исходным кодом, а систематическое вращение колеса случайных отключений ускоряет обучение всей расширенной команды.

Устойчивость цепочки поставок и Chaos Engineering

Цифровое преобразование в цепочке поставок был жарким в этом году, потому что он помогает цепочкам поставок поддерживать новые бизнес-модели и продвигаться к устойчивым операциям (см. исследование BCG X), но и потому, что он обещает «устойчивость». К сожалению, практическое применение цифровой трансформации для обеспечения устойчивости цепочки поставок по-прежнему обычно сводится к платформам для лучшей «видимости», поддерживаемым набором традиционных тактик, таких как буферизация запасов и двойные источники. В основе этого подхода лежит еще один уровень аналитической работы по время восстановления Дэвид Симчи-Леви из Массачусетского технологического института, а также волна симуляций с использованием цифровых двойников. Все это звучит здорово, но чего не хватает, так это какого-то систематического способа экспериментировать с реальными сбоями в цепочке поставок, чтобы узнать, как лучше всего восстановиться на практике.

Применение Chaos Monkey к цепочкам поставок

Врачи дают клятву Гиппократа, прежде чем вскрыть нас, в том числе известное «сначала не навреди». Неплохая идея для тех, кто применяет принципы Chaos Monkey к цепочкам поставок, что влечет за собой случайное отключение где-то реальной машины. Это нетривиально и, насколько я знаю, еще нигде не происходит.

  • Первый принцип, упомянутый выше, говорит о том, что нужно сосредоточиться на результатах системы, а не на внутренних атрибутах. Убедитесь, что система работает, вместо того, чтобы пытаться понять, почему она работает.
  • Второй принцип говорит о том, что ломать разные вещи можно реалистично. Не нужно имитировать глобальную термоядерную войну, просто отключите выключатель или потеряйте заказ и узнайте, какое решение работает лучше всего.
  • Третий принцип гласит, что учиться лучше всего на производстве. Обучение на практике лучше, чем обучение на симуляции, т. е. цифровые двойники великолепны, но их может быть недостаточно для создания культуры устойчивости.
  • Четвертый принцип институционализирует принципы обезьяны хаоса, потому что он позволяет масштабировать процесс экспериментирования, что приводит к более крутой кривой обучения. Используйте науку о данных при тушении пожаров.
  • Наконец, сведите к минимуму радиус взрыва. Это означает «не навреди» и переводится как некая буферизация (инвентарь, время выполнения, ускоренная доставка), чтобы защитить клиентов от ощущения вашего эксперимента. Научитесь управлять управляемыми взрывами.

Можно утверждать, что последние три года Covid, война, трудовые волнения, а экономические потрясения превратились для всех в один большой пробный прогон обезьяны хаоса. Урок Netflix заключался в том, что такого рода кризисы — это не просто то, что нужно планировать, а то, с чем нужно справиться как с постоянным фактом жизни.

Идеальный шторм может никогда не закончиться, поэтому, возможно, нам стоит научиться с ним жить.

Источник: https://www.forbes.com/sites/kevinomarah/2022/12/22/netflix-chaos-monkey-and-supply-chain/