Questions d’entretien Senior Site Reliability Engineer avec réponses

Milad Bonakdar
Auteur
Préparez un entretien SRE senior avec des questions pratiques sur les SLO, error budgets, capacité, incidents, chaos testing, astreinte et arbitrages de fiabilité.
Introduction
Un entretien SRE senior évalue surtout votre capacité à transformer la fiabilité en décisions d’ingénierie claires. Les bonnes réponses relient des SLI orientés utilisateur, des SLO réalistes, une politique d’error budget, la conduite d’incident, des données de capacité et une astreinte soutenable.
Servez-vous de ce guide pour préparer des réponses qui montrent un vrai jugement senior : choisir le bon objectif de fiabilité, réagir quand l’error budget brûle trop vite, piloter un incident sans ajouter de confusion et expliquer les compromis aux responsables produit et ingénierie.
Une réponse senior solide précise :
- L’impact utilisateur à protéger
- Le signal ou la métrique fiable
- Le compromis à rendre explicite
- L’habitude opérationnelle qui évite d’ajouter du toil
Conception Avancée des SLO
1. Comment concevez-vous les SLI et les SLO pour un nouveau service avec des données limitées ?
Réponse : La conception des SLO pour les nouveaux services nécessite d'équilibrer l'ambition avec la faisabilité :
Approche :
1. Commencez par la cartographie du parcours utilisateur :
2. Définir les SLI en fonction de l'expérience utilisateur :
3. Définir initialement les SLO de manière conservatrice :
4. Planifier l'itération :
- Commencer avec une fenêtre de mesure de 4 semaines
- Examiner la performance des SLO chaque semaine
- Ajuster en fonction des performances réelles et des commentaires des utilisateurs
- Renforcer les SLO à mesure que le système mûrit
5. Documenter les hypothèses :
Rareté : Courant Difficulté : Difficile
2. Comment gérez-vous les SLO conflictuels entre différents segments d'utilisateurs ?
Réponse : Différents segments d'utilisateurs ont souvent des besoins de fiabilité différents :
Stratégie : SLO multi-niveaux
Implémentation avec le routage du trafic :
Surveillance par niveau :
Rareté : Rare Difficulté : Difficile
Planification de la Capacité
3. Décrivez votre processus de planification de la capacité pour un service en croissance rapide.
Réponse : La planification de la capacité garantit que les ressources répondent à la demande tout en optimisant les coûts :
Cadre de Planification de la Capacité :
1. Mesurer la ligne de base :
2. Considérer les facteurs de croissance :
- Taux de croissance des utilisateurs
- Lancements de fonctionnalités
- Schémas saisonniers
- Campagnes de marketing
- Expansion géographique
3. Planifier la marge de manœuvre :
- N+1 : Survivre à une panne d'instance
- N+2 : Survivre à deux pannes ou une panne de zone
- Pics de trafic : 2-3x la capacité normale
- Fenêtres de maintenance : Surcharge de 20-30 %
4. Optimisation des coûts :
Rareté : Très Courant Difficulté : Difficile
Ingénierie du Chaos
4. Comment implémentez-vous l'ingénierie du chaos en production ?
Réponse : L'ingénierie du chaos teste proactivement la résilience du système en injectant des défaillances :
Principes de l'Ingénierie du Chaos :
- Établir une hypothèse autour de l'état stable
- Varier les événements du monde réel
- Exécuter des expériences en production
- Automatiser les expériences
- Minimiser le rayon d'impact
Implémentation :
Expériences de Chaos Courantes :
1. Latence du Réseau :
2. Panne de Pod (Kubernetes) :
3. Épuisement des Ressources :
Rareté : Courant Difficulté : Difficile
Leadership en Cas d'Incident
5. Comment dirigez-vous un incident de haute gravité de la détection au post-mortem ?
Réponse : Les SRE seniors servent souvent de commandants d'incident pour les pannes critiques :
Structure de Commandement d'Incident :
Responsabilités du Commandant d'Incident :
1. Réponse Initiale (0-5 minutes) :
2. Phase d'Investigation :
3. Stratégies d'Atténuation :
4. Post-Mortem (Sans Blâme) :
Rareté : Très Courant Difficulté : Difficile
Fiabilité des Systèmes Distribués
6. Comment assurez-vous la fiabilité dans une architecture de microservices distribués ?
Réponse : Les systèmes distribués introduisent des défis de fiabilité uniques :
Modèles Clés :
1. Maillage de Services pour la Résilience :
2. Traçage Distribué :
Conclusion
Les meilleures réponses SRE senior ressemblent à du jugement de production, pas à des définitions récitées. Entraînez-vous à expliquer comment vous définissez des SLO à partir des parcours utilisateur, utilisez les error budgets pour guider le risque de release, validez la capacité avec de vraies données de charge, menez des expériences de chaos contrôlées, pilotez les incidents avec des rôles clairs et réduisez le toil sans masquer le risque.
Avant l’entretien, préparez deux ou trois histoires concrètes : un incident que vous avez mené, un compromis de fiabilité que vous avez influencé et une amélioration d’automatisation ou d’observabilité qui a changé le comportement de l’équipe. Pour chacune, nommez le signal, la décision, le compromis et le suivi.


