Chaos Engineering : Casser votre prod volontairement (pour la rendre incassable)
“Notre système est résilient.” Vraiment ? L’avez-vous testé ? Le Chaos Engineering consiste à casser volontairement la prod pour vérifier qu’elle survit. Retour d’expérience après 1 an de pratique. Le problème : Fausse résilience Ce qu’on croit ✅ Redondance serveurs ✅ Auto-scaling configuré ✅ Health checks en place ✅ Backups automatiques → "Le système est résilient !" La réalité Premier incident critique : - Auto-scaling ne scale pas (config obsolète) - Health checks passent mais app bugue - Backup restore : jamais testé, ne marche pas - Cascading failure : tout tombe → Downtime 4 heures Problème : On ne teste la résilience que pendant les incidents. ...