Chaos Engineering : Casser votre prod volontairement (pour la rendre incassable)

“Notre système est résilient.” Vraiment ? L’avez-vous testé ? Le Chaos Engineering consiste à casser volontairement la prod pour vérifier qu’elle survit. Retour d’expérience après 1 an de pratique. Le problème : Fausse résilience Ce qu’on croit ✅ Redondance serveurs ✅ Auto-scaling configuré ✅ Health checks en place ✅ Backups automatiques → "Le système est résilient !" La réalité Premier incident critique : - Auto-scaling ne scale pas (config obsolète) - Health checks passent mais app bugue - Backup restore : jamais testé, ne marche pas - Cascading failure : tout tombe → Downtime 4 heures Problème : On ne teste la résilience que pendant les incidents. ...

17 octobre 2025 · 5 min · 918 mots · Kevin Delfour