Netflix' Chaos Monkey und Lieferkette

Ich hatte kürzlich ein Gespräch mit Carlos Crespo, Chief Operating Officer der Zara-Muttergesellschaft Inditex, in dem er ein Softwaretool erwähnte, das von Netflix vor über einem Jahrzehnt entwickelt wurde, um die Ausfallsicherheit von Systemen zu institutionalisieren. Der Name ist einprägsam und für Supply-Chain-Führungskräfte, die versuchen, ihre Liefernetzwerke für turbulente Zeiten neu zu erfinden, unwiderstehlich. Und doch, ein GoogleGOOG
Suche nach „Supply Chain Chaos Monkey“ ergab genau das ein Zitat, von 2012.

Warum wenden wir diese Idee nicht auf die Resilienz der Lieferkette an?

Was ist Chaos Monkey?

Es ist ein Software-Tool, und allgemeiner gesagt, ein technisches Prinzip, das Teile eines komplexen Systems willkürlich herunterfährt und die Bediener zwingt, den Betrieb wiederherzustellen. Eine Art überraschende Feuerwehrübung, aber täglich und auf zufällige Weise und an zufälligen Orten. Die Idee ist, dass das schnelle Lösen von Systemproblemen ein Lernprozess ist, der von einer steileren Lernkurve profitieren sollte.

Die Hintergrundgeschichte handelt davon, wie Netflix sein Streaming-Geschäft auf Amazon Web Services skaliert hat, während es vom Versand von DVDs an die Haustür des Kunden überging. Auf den ersten Blick ist es ein logischer Ansatz für die Systemredundanzplanung, wie man es von der NASA erwarten würde, aber in der Praxis nutzt es eine kulturelle Norm von Netflix aus, die es einzelnen Mitwirkenden ermöglicht, ihre eigenen Probleme zu lösen. Wie in „Chaos-Engineering“, einem Buch aus dem Jahr 2020 von Casey Rosenthal und Nora Jones, die bei Netflix Pionierarbeit geleistet haben, läuft es auf fünf Prinzipien hinaus:

  • Erstellen Sie eine Hypothese zum stationären Verhalten
  • Variieren Sie reale Ereignisse
  • Führen Sie Experimente in der Produktion durch
  • Automatisieren Sie Experimente, damit sie kontinuierlich ausgeführt werden
  • Explosionsradius minimieren

Die Mischung aus Kultur und Prozess bei Netflix ist wichtig, weil sie einen Open-Source-Ansatz zur Problemlösung gefördert und genutzt hat, während das systematische Drehen des Rades zufälliger Abschaltungen das Lernen im gesamten erweiterten Team beschleunigt.

Supply Chain Resilience und Chaos Engineering

Digitale Transformation in der Lieferkette war dieses Jahr heiß, weil es Lieferketten dabei hilft, neue Geschäftsmodelle zu unterstützen und auf nachhaltige Abläufe hinzuarbeiten (siehe BCG X-Studie), sondern auch, weil es „Resilienz“ verspricht. Leider laufen praktische Anwendungen der digitalen Transformation für die Resilienz der Lieferkette im Allgemeinen immer noch auf Plattformen für eine bessere „Sichtbarkeit“ hinaus, unterstützt durch eine Reihe traditioneller Taktiken wie Bestandspufferung und Dual-Sourcing. Untermauert wird dieser Ansatz durch eine weitere Ebene analytischer Arbeit Zeit zur Genesung von David Simchi-Levi am MIT und eine Welle von Simulationen mit digitalen Zwillingen. Das klingt alles großartig, aber was fehlt, ist eine systematische Möglichkeit, mit echten Lieferkettenausfällen zu experimentieren, um zu lernen, wie man sich in der Praxis am besten erholt.

Anwendung von Chaos Monkey auf Lieferketten

Ärzte leisten den hippokratischen Eid, bevor sie uns aufschneiden, einschließlich des berühmten „zuerst keinen Schaden anrichten“. Keine schlechte Idee für jeden, der die Chaos Monkey-Prinzipien auf Lieferketten anwendet, was bedeutet, dass irgendwo eine echte Maschine willkürlich abgeschaltet wird. Das ist nicht trivial und kommt meines Wissens noch nirgendwo vor.

  • Das erste oben zitierte Prinzip besagt, sich eher auf Systemausgaben als auf interne Attribute zu konzentrieren. Überprüfen Sie, ob das System funktioniert, anstatt zu versuchen zu verstehen, warum es funktioniert.
  • Das zweite Prinzip besagt, verschiedene Dinge auf realistische Weise zu brechen. Sie müssen keinen globalen thermonuklearen Krieg simulieren, sondern einfach einen Schalter ausschalten oder einen Auftrag verlieren und lernen, welche Lösung am besten funktioniert.
  • Das dritte Prinzip besagt, dass der beste Ort zum Lernen die Produktion ist. Lernen durch Handeln ist besser als Lernen durch Simulation – dh digitale Zwillinge sind großartig, aber sie reichen möglicherweise nicht aus, um eine Kultur der Resilienz aufzubauen.
  • Das vierte Prinzip institutionalisiert die Chaos-Affen-Prinzipien, weil es eine Skalierung des Experimentierprozesses ermöglicht, was Sie zu einer steileren Lernkurve führt. Nutzen Sie Data Science zur Brandbekämpfung.
  • Zuletzt den Explosionsradius minimieren. Dies bedeutet „keinen Schaden anrichten“ und bedeutet eine Art Pufferung (Bestand, Vorlaufzeit, beschleunigter Versand), um Kunden davor zu schützen, Ihr Experiment zu spüren. Lernen Sie, kontrollierte Explosionen zu handhaben.

Man könnte argumentieren, dass die letzten drei Jahre von Covid, Krieg, Arbeiterunruhen, und die wirtschaftlichen Turbulenzen waren für alle ein großer Chaos-Affen-Trockenlauf. Die Lektion von Netflix war, dass diese Art von Krise nicht nur etwas zu planen ist, sondern etwas, das als dauerhafte Tatsache des Lebens gemeistert werden muss.

Der perfekte Sturm wird vielleicht nie enden, also sollten wir vielleicht lernen, damit zu leben.

Quelle: https://www.forbes.com/sites/kevinomarah/2022/12/22/netflix-chaos-monkey-and-supply-chain/