Questions d’entretien Senior Site Reliability Engineer

Introduction

Un entretien SRE senior évalue surtout votre capacité à transformer la fiabilité en décisions d’ingénierie claires. Les bonnes réponses relient des SLI orientés utilisateur, des SLO réalistes, une politique d’error budget, la conduite d’incident, des données de capacité et une astreinte soutenable.

Servez-vous de ce guide pour préparer des réponses qui montrent un vrai jugement senior : choisir le bon objectif de fiabilité, réagir quand l’error budget brûle trop vite, piloter un incident sans ajouter de confusion et expliquer les compromis aux responsables produit et ingénierie.

Une réponse senior solide précise :

L’impact utilisateur à protéger
Le signal ou la métrique fiable
Le compromis à rendre explicite
L’habitude opérationnelle qui évite d’ajouter du toil

Conception Avancée des SLO

1. Comment concevez-vous les SLI et les SLO pour un nouveau service avec des données limitées ?

Réponse : La conception des SLO pour les nouveaux services nécessite d'équilibrer l'ambition avec la faisabilité :

Approche :

1. Commencez par la cartographie du parcours utilisateur :

# Identifier les parcours utilisateurs critiques
user_journeys = {
    'search_product': {
        'steps': ['search_query', 'results_display', 'product_click'],
        'criticality': 'high',
        'expected_latency': '< 500ms'
    },
    'checkout': {
        'steps': ['add_to_cart', 'payment', 'confirmation'],
        'criticality': 'critical',
        'expected_latency': '< 2s'
    },
    'browse_recommendations': {
        'steps': ['load_page', 'fetch_recommendations'],
        'criticality': 'medium',
        'expected_latency': '< 1s'
    }
}

2. Définir les SLI en fonction de l'expérience utilisateur :

# Spécification des SLI
slis:
  availability:
    description: "Pourcentage de requêtes réussies"
    measurement: "count(http_status < 500) / count(http_requests)"
    
  latency:
    description: "Latence de requête au 95e percentile"
    measurement: "histogram_quantile(0.95, http_request_duration_seconds)"
    
  correctness:
    description: "Pourcentage de requêtes retournant des données correctes"
    measurement: "count(validation_passed) / count(requests)"

3. Définir initialement les SLO de manière conservatrice :

def calculate_initial_slo(service_type, criticality):
    """
    Calculer le SLO initial en fonction des caractéristiques du service
    """
    base_slos = {
        'critical': {
            'availability': 0.999,  # 99.9%
            'latency_p95': 1.0,     # 1 seconde
            'latency_p99': 2.0      # 2 secondes
        },
        'high': {
            'availability': 0.995,  # 99.5%
            'latency_p95': 2.0,
            'latency_p99': 5.0
        },
        'medium': {
            'availability': 0.99,   # 99%
            'latency_p95': 5.0,
            'latency_p99': 10.0
        }
    }
    
    return base_slos.get(criticality, base_slos['medium'])

# Exemple
checkout_slo = calculate_initial_slo('payment', 'critical')
print(f"SLO de Checkout : {checkout_slo}")

4. Planifier l'itération :

Commencer avec une fenêtre de mesure de 4 semaines
Examiner la performance des SLO chaque semaine
Ajuster en fonction des performances réelles et des commentaires des utilisateurs
Renforcer les SLO à mesure que le système mûrit

5. Documenter les hypothèses :

## Hypothèses des SLO (Initiales)

### Disponibilité : 99,9 %
- Hypothèse : Fiabilité standard de l'infrastructure cloud
- Budget d'erreur : 43 minutes/mois
- Examen : Après 3 mois de données

### Latence (p95) : < 1s
- Hypothèse : Requêtes de base de données < 100ms
- Hypothèse : Pas de calculs complexes
- Examen : Si les schémas de requête changent

### Dépendances
- Disponibilité de l'API externe : 99,95 %
- Disponibilité de la base de données : 99,99 %

Rareté : Courant Difficulté : Difficile

2. Comment gérez-vous les SLO conflictuels entre différents segments d'utilisateurs ?

Réponse : Différents segments d'utilisateurs ont souvent des besoins de fiabilité différents :

Stratégie : SLO multi-niveaux

class SLOTier:
    def __init__(self, name, availability, latency_p95, latency_p99):
        self.name = name
        self.availability = availability
        self.latency_p95 = latency_p95
        self.latency_p99 = latency_p99
        self.error_budget = 1 - availability

# Définir les niveaux
tiers = {
    'premium': SLOTier(
        name='Premium',
        availability=0.9999,  # 99.99% - 4.3 min/mois
        latency_p95=0.5,
        latency_p99=1.0
    ),
    'standard': SLOTier(
        name='Standard',
        availability=0.999,   # 99.9% - 43 min/mois
        latency_p95=1.0,
        latency_p99=2.0
    ),
    'free': SLOTier(
        name='Free',
        availability=0.99,    # 99% - 7.2 heures/mois
        latency_p95=2.0,
        latency_p99=5.0
    )
}

# Router les requêtes en fonction du niveau
def get_user_tier(user_id):
    # Rechercher le niveau d'abonnement de l'utilisateur
    return user_subscription_tier(user_id)

def apply_slo_policy(user_id, request):
    tier = get_user_tier(user_id)
    slo = tiers[tier]
    
    # Appliquer des politiques spécifiques au niveau
    request.timeout = slo.latency_p99
    request.priority = tier  # Pour la priorisation des files d'attente
    request.retry_budget = calculate_retry_budget(slo.error_budget)
    
    return request

Implémentation avec le routage du trafic :

# Exemple Kubernetes : Déploiements séparés par niveau
apiVersion: apps/v1
kind: Deployment
metadata:
  name: api-premium
spec:
  replicas: 10
  template:
    spec:
      containers:
      - name: api
        resources:
          requests:
            cpu: "2"
            memory: "4Gi"
          limits:
            cpu: "4"
            memory: "8Gi"
      priorityClassName: high-priority
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: api-standard
spec:
  replicas: 5
  template:
    spec:
      containers:
      - name: api
        resources:
          requests:
            cpu: "1"
            memory: "2Gi"

Surveillance par niveau :

# Disponibilité par niveau
sum(rate(http_requests_total{status!~"5.."}[5m])) by (tier)
/
sum(rate(http_requests_total[5m])) by (tier)

# Latence par niveau
histogram_quantile(0.95,
  rate(http_request_duration_seconds_bucket[5m])
) by (tier)

Rareté : Rare Difficulté : Difficile

Planification de la Capacité

3. Décrivez votre processus de planification de la capacité pour un service en croissance rapide.

Réponse : La planification de la capacité garantit que les ressources répondent à la demande tout en optimisant les coûts :

Cadre de Planification de la Capacité :

Loading diagram...

1. Mesurer la ligne de base :

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

class CapacityPlanner:
    def __init__(self, metrics_data):
        self.data = pd.DataFrame(metrics_data)
    
    def analyze_trends(self, metric_name, days=30):
        """Analyser les tendances historiques"""
        metric_data = self.data[metric_name].tail(days * 24)  # Données horaires
        
        # Calculer le taux de croissance
        start_value = metric_data.iloc[0]
        end_value = metric_data.iloc[-1]
        growth_rate = ((end_value - start_value) / start_value) * 100
        
        # Identifier l'utilisation maximale
        peak_value = metric_data.max()
        peak_time = metric_data.idxmax()
        
        # Calculer les percentiles
        p50 = metric_data.quantile(0.50)
        p95 = metric_data.quantile(0.95)
        p99 = metric_data.quantile(0.99)
        
        return {
            'growth_rate': growth_rate,
            'peak_value': peak_value,
            'peak_time': peak_time,
            'p50': p50,
            'p95': p95,
            'p99': p99
        }
    
    def forecast_capacity(self, metric_name, months_ahead=3):
        """Prévoir les futurs besoins en capacité"""
        # Préparer les données
        df = self.data[[metric_name]].reset_index()
        df['days'] = (df.index / 24).astype(int)  # Convertir les heures en jours
        
        # Entraîner le modèle
        X = df[['days']].values
        y = df[metric_name].values
        
        model = LinearRegression()
        model.fit(X, y)
        
        # Prévoir
        future_days = np.array([[df['days'].max() + (30 * months_ahead)]])
        forecast = model.predict(future_days)[0]
        
        # Ajouter une marge de sécurité (20%)
        forecast_with_margin = forecast * 1.2
        
        return {
            'forecast': forecast,
            'with_margin': forecast_with_margin,
            'current': y[-1],
            'growth_factor': forecast / y[-1]
        }
    
    def calculate_resource_needs(self, requests_per_second, 
                                 requests_per_instance=100,
                                 headroom=0.3):
        """Calculer les instances requises"""
        # Capacité de base
        base_instances = np.ceil(requests_per_second / requests_per_instance)
        
        # Ajouter une marge de manœuvre pour les pics et la maintenance
        total_instances = np.ceil(base_instances * (1 + headroom))
        
        return {
            'base_instances': int(base_instances),
            'total_instances': int(total_instances),
            'headroom_instances': int(total_instances - base_instances)
        }

# Exemple d'utilisation
metrics = {
    'requests_per_second': [100, 105, 110, 115, 120, ...],  # Données historiques
    'cpu_usage': [45, 48, 50, 52, 55, ...],
    'memory_usage': [60, 62, 65, 67, 70, ...]
}

planner = CapacityPlanner(metrics)

# Analyser les tendances
trends = planner.analyze_trends('requests_per_second', days=30)
print(f"Taux de croissance : {trends['growth_rate']:.2f}%")
print(f"RPS maximal : {trends['peak_value']}")

# Prévoir la capacité
forecast = planner.forecast_capacity('requests_per_second', months_ahead=3)
print(f"RPS prévu dans 3 mois : {forecast['forecast']:.0f}")
print(f"Avec marge de sécurité : {forecast['with_margin']:.0f}")

# Calculer les besoins en ressources
resources = planner.calculate_resource_needs(
    requests_per_second=forecast['with_margin'],
    requests_per_instance=100,
    headroom=0.3
)
print(f"Instances requises : {resources['total_instances']}")

2. Considérer les facteurs de croissance :

Taux de croissance des utilisateurs
Lancements de fonctionnalités
Schémas saisonniers
Campagnes de marketing
Expansion géographique

3. Planifier la marge de manœuvre :

N+1 : Survivre à une panne d'instance
N+2 : Survivre à deux pannes ou une panne de zone
Pics de trafic : 2-3x la capacité normale
Fenêtres de maintenance : Surcharge de 20-30 %

4. Optimisation des coûts :

def optimize_instance_mix(workload_profile):
    """
    Optimiser les types d'instances pour les coûts
    """
    # Mélange de types d'instances
    instance_types = {
        'on_demand': {
            'cost_per_hour': 0.10,
            'reliability': 1.0,
            'percentage': 0.3  # 30% à la demande pour la ligne de base
        },
        'spot': {
            'cost_per_hour': 0.03,
            'reliability': 0.95,
            'percentage': 0.5  # 50% spot pour les économies de coûts
        },
        'reserved': {
            'cost_per_hour': 0.06,
            'reliability': 1.0,
            'percentage': 0.2  # 20% réservé pour une charge prévisible
        }
    }
    
    total_instances = workload_profile['total_instances']
    
    allocation = {}
    for instance_type, config in instance_types.items():
        count = int(total_instances * config['percentage'])
        allocation[instance_type] = {
            'count': count,
            'monthly_cost': count * config['cost_per_hour'] * 730
        }
    
    return allocation

Rareté : Très Courant Difficulté : Difficile

Ingénierie du Chaos

4. Comment implémentez-vous l'ingénierie du chaos en production ?

Réponse : L'ingénierie du chaos teste proactivement la résilience du système en injectant des défaillances :

Principes de l'Ingénierie du Chaos :

Établir une hypothèse autour de l'état stable
Varier les événements du monde réel
Exécuter des expériences en production
Automatiser les expériences
Minimiser le rayon d'impact

Implémentation :

# Cadre d'expérimentation du chaos
from dataclasses import dataclass
from enum import Enum
import random
import time

class ExperimentStatus(Enum):
    PLANNED = "planned"
    RUNNING = "running"
    COMPLETED = "completed"
    ABORTED = "aborted"

@dataclass
class ChaosExperiment:
    name: str
    hypothesis: str
    blast_radius: float  # Pourcentage du trafic affecté
    duration_seconds: int
    rollback_criteria: dict
    
    def __post_init__(self):
        self.status = ExperimentStatus.PLANNED
        self.metrics_before = {}
        self.metrics_during = {}
        self.metrics_after = {}

class ChaosRunner:
    def __init__(self, monitoring_client):
        self.monitoring = monitoring_client
        self.experiments = []
    
    def run_experiment(self, experiment: ChaosExperiment):
        """Exécuter une expérience de chaos avec des contrôles de sécurité"""
        print(f"Démarrage de l'expérience : {experiment.name}")
        
        # 1. Mesurer la ligne de base
        experiment.metrics_before = self.measure_metrics()
        print(f"Métriques de référence : {experiment.metrics_before}")
        
        # 2. Vérifier que le système est sain
        if not self.is_system_healthy(experiment.metrics_before):
            print("Système non sain, abandon de l'expérience")
            return False
        
        # 3. Injecter une défaillance
        experiment.status = ExperimentStatus.RUNNING
        failure_injection = self.inject_failure(experiment)
        
        try:
            # 4. Surveiller pendant l'expérience
            start_time = time.time()
            while time.time() - start_time < experiment.duration_seconds:
                experiment.metrics_during = self.measure_metrics()
                
                # Vérifier les critères de restauration
                if self.should_rollback(experiment):
                    print("Critères de restauration remplis, arrêt de l'expérience")
                    self.rollback(failure_injection)
                    experiment.status = ExperimentStatus.ABORTED
                    return False
                
                time.sleep(10)  # Vérifier toutes les 10 secondes
            
            # 5. Restaurer l'injection de défaillance
            self.rollback(failure_injection)
            
            # 6. Mesurer la récupération
            time.sleep(60)  # Attendre que le système se stabilise
            experiment.metrics_after = self.measure_metrics()
            
            # 7. Analyser les résultats
            experiment.status = ExperimentStatus.COMPLETED
            return self.analyze_results(experiment)
            
        except Exception as e:
            print(f"L'expérience a échoué : {e}")
            self.rollback(failure_injection)
            experiment.status = ExperimentStatus.ABORTED
            return False
    
    def inject_failure(self, experiment):
        """Injecter un type de défaillance spécifique"""
        # L'implémentation dépend du type de défaillance
        pass
    
    def measure_metrics(self):
        """Mesurer les métriques clés du système"""
        return {
            'error_rate': self.monitoring.get_error_rate(),
            'latency_p95': self.monitoring.get_latency_p95(),
            'requests_per_second': self.monitoring.get_rps(),
            'availability': self.monitoring.get_availability()
        }
    
    def is_system_healthy(self, metrics):
        """Vérifier si le système respecte les SLO"""
        return (
            metrics['error_rate'] < 0.01 and  # < 1% d'erreurs
            metrics['latency_p95'] < 1.0 and  # < 1s de latence
            metrics['availability'] > 0.999   # > 99.9% de disponibilité
        )
    
    def should_rollback(self, experiment):
        """Vérifier si l'expérience doit être abandonnée"""
        current = experiment.metrics_during
        criteria = experiment.rollback_criteria
        
        return (
            current['error_rate'] > criteria.get('max_error_rate', 0.05) or
            current['latency_p95'] > criteria.get('max_latency', 5.0) or
            current['availability'] < criteria.get('min_availability', 0.99)
        )
    
    def rollback(self, failure_injection):
        """Supprimer l'injection de défaillance"""
        print("Restauration de l'injection de défaillance")
        # L'implémentation dépend du type de défaillance
    
    def analyze_results(self, experiment):
        """Analyser les résultats de l'expérience"""
        before = experiment.metrics_before
        during = experiment.metrics_during
        after = experiment.metrics_after
        
        print(f"\nRésultats de l'expérience : {experiment.name}")
        print(f"Hypothèse : {experiment.hypothesis}")
        print(f"\nMétriques :")
        print(f"  Avant : {before}")
        print(f"  Pendant : {during}")
        print(f"  Après : {after}")
        
        # Déterminer si l'hypothèse a été validée
        hypothesis_validated = (
            during['availability'] >= experiment.rollback_criteria['min_availability']
        )
        
        return hypothesis_validated

# Exemple d'expérience
experiment = ChaosExperiment(
    name="Test de basculement de la base de données",
    hypothesis="Le système reste disponible pendant le basculement de la base de données",
    blast_radius=0.1,  # 10% du trafic
    duration_seconds=300,  # 5 minutes
    rollback_criteria={
        'max_error_rate': 0.05,
        'max_latency': 5.0,
        'min_availability': 0.99
    }
)

Expériences de Chaos Courantes :

1. Latence du Réseau :

# Utilisation de tc (traffic control) pour ajouter de la latence
tc qdisc add dev eth0 root netem delay 100ms 20ms

# Restauration
tc qdisc del dev eth0 root

2. Panne de Pod (Kubernetes) :

# Tuer des pods aléatoires
kubectl delete pod -l app=myapp --random=1

# Utilisation de Chaos Mesh
kubectl apply -f - <<EOF
apiVersion: chaos-mesh.org/v1alpha1
kind: PodChaos
metadata:
  name: pod-failure
spec:
  action: pod-failure
  mode: one
  selector:
    namespaces:
      - production
    labelSelectors:
      app: myapp
  duration: "30s"
EOF

3. Épuisement des Ressources :

# Stress du CPU
stress-ng --cpu 4 --timeout 60s

# Stress de la mémoire
stress-ng --vm 2 --vm-bytes 2G --timeout 60s

Rareté : Courant Difficulté : Difficile

Leadership en Cas d'Incident

5. Comment dirigez-vous un incident de haute gravité de la détection au post-mortem ?

Réponse : Les SRE seniors servent souvent de commandants d'incident pour les pannes critiques :

Structure de Commandement d'Incident :

Loading diagram...

Responsabilités du Commandant d'Incident :

1. Réponse Initiale (0-5 minutes) :

## Liste de Contrôle du Commandant d'Incident

### Actions Immédiates
- [ ] Accuser réception de l'incident
- [ ] Évaluer la gravité (SEV-1, SEV-2, SEV-3)
- [ ] Créer un canal d'incident (#incident-AAAA-MM-JJ-NNN)
- [ ] Envoyer un message aux équipes appropriées
- [ ] Désigner les rôles :
  - [ ] Responsable Technique
  - [ ] Responsable des Communications
  - [ ] Scribe (documenter la chronologie)

### Évaluation de la Gravité
**SEV-1 (Critique) :**
- Panne complète du service
- Perte de données
- Violation de sécurité
- > 50 % des utilisateurs affectés

**SEV-2 (Élevée) :**
- Panne partielle
- Performance dégradée
- 10-50 % des utilisateurs affectés

**SEV-3 (Moyenne) :**
- Dégradation mineure
- < 10 % des utilisateurs affectés
- Solution de contournement disponible

2. Phase d'Investigation :

class IncidentCommander:
    def __init__(self, incident_id):
        self.incident_id = incident_id
        self.timeline = []
        self.status_updates = []
        self.action_items = []
    
    def coordinate_investigation(self):
        """Coordonner l'investigation technique"""
        # Pistes d'investigation parallèles
        tracks = {
            'recent_changes': self.check_recent_deployments(),
            'infrastructure': self.check_infrastructure_health(),
            'dependencies': self.check_external_dependencies(),
            'metrics': self.analyze_metrics_anomalies()
        }
        
        return tracks
    
    def make_decision(self, options, deadline_minutes=5):
        """Prendre une décision dans un délai imparti"""
        print(f"Décision nécessaire dans les {deadline_minutes} minutes")
        print(f"Options : {options}")
        
        # Recueillir les commentaires des responsables techniques
        # Prendre une décision basée sur :
        # - L'impact sur l'utilisateur
        # - Le risque de chaque option
        # - Le temps de mise en œuvre
        # - La réversibilité
        
        return selected_option
    
    def communicate_status(self, interval_minutes=15):
        """Mises à jour régulières de l'état"""
        update = {
            'timestamp': datetime.now(),
            'status': self.get_current_status(),
            'impact': self.assess_user_impact(),
            'eta': self.estimate_resolution_time(),
            'next_update': datetime.now() + timedelta(minutes=interval_minutes)
        }
        
        # Envoyer aux parties prenantes
        self.send_status_update(update)
        self.status_updates.append(update)
    
    def log_timeline_event(self, event, timestamp=None):
        """Documenter la chronologie de l'incident"""
        self.timeline.append({
            'timestamp': timestamp or datetime.now(),
            'event': event,
            'logged_by': self.get_current_user()
        })

3. Stratégies d'Atténuation :

def evaluate_mitigation_options():
    """Évaluer et prioriser les options d'atténuation"""
    options = [
        {
            'action': 'Annuler le déploiement',
            'time_to_implement': 5,  # minutes
            'risk': 'low',
            'effectiveness': 'high',
            'reversible': True
        },
        {
            'action': 'Augmenter les ressources',
            'time_to_implement': 2,
            'risk': 'low',
            'effectiveness': 'medium',
            'reversible': True
        },
        {
            'action': 'Désactiver un drapeau de fonctionnalité',
            'time_to_implement': 1,
            'risk': 'low',
            'effectiveness': 'high',
            'reversible': True
        },
        {
            'action': 'Basculement de la base de données',
            'time_to_implement': 10,
            'risk': 'medium',
            'effectiveness': 'high',
            'reversible': False
        }
    ]
    
    # Trier par : faible risque, haute efficacité, mise en œuvre rapide
    sorted_options = sorted(
        options,
        key=lambda x: (
            x['risk'] == 'low',
            x['effectiveness'] == 'high',
            -x['time_to_implement']
        ),
        reverse=True
    )
    
    return sorted_options

4. Post-Mortem (Sans Blâme) :

# Post-Mortem de l'Incident : Panne de l'API

**Date :** 2024-11-25
**Durée :** 45 minutes
**Gravité :** SEV-1
**Commandant d'Incident :** Alice
**Responsable Technique :** Bob

## Résumé Exécutif
Panne complète de l'API affectant tous les utilisateurs en raison de l'épuisement du pool de connexions à la base de données.

## Impact
- **Utilisateurs affectés :** 100 % (tous les utilisateurs)
- **Durée :** 45 minutes
- **Impact sur les revenus :** ~50 000 $
- **Impact sur les SLO :** Consommation de 75 % du budget d'erreur mensuel

## Cause Racine
Le pool de connexions à la base de données a été épuisé en raison d'une fuite de connexion dans une nouvelle fonctionnalité déployée 2 heures avant l'incident.

## Chronologie
| Heure | Événement |
|------|-------|
| 14:00 | Déploiement de la v2.5.0 |
| 15:45 | Premières alertes pour une latence accrue |
| 15:50 | Panne complète de l'API |
| 15:52 | Incident déclaré (SEV-1) |
| 15:55 | Identification de la base de données comme goulot d'étranglement |
| 16:05 | Décision d'annuler le déploiement |
| 16:15 | Annulation terminée |
| 16:20 | Service en cours de récupération |
| 16:35 | Récupération complète confirmée |

## Ce Qui S'est Bien Passé
- Détection rapide (5 minutes après le premier symptôme)
- Structure de commandement d'incident claire
- Décision rapide d'annuler le déploiement
- Bonne communication avec les parties prenantes

## Ce Qui S'est Mal Passé
- Fuite de connexion non détectée lors des tests
- Absence de surveillance du pool de connexions
- Déploiement pendant les heures de pointe

## Actions à Entreprendre
| Action | Propriétaire | Date d'Échéance | État |
|--------|-------|----------|--------|
| Ajouter la surveillance du pool de connexions | Alice | 2024-12-01 | Ouvert |
| Implémenter la détection des fuites de connexion dans les tests | Bob | 2024-12-05 | Ouvert |
| Mettre à jour la politique de déploiement (éviter les heures de pointe) | Charlie | 2024-11-30 | Ouvert |
| Ajouter un coupe-circuit pour les connexions à la base de données | David | 2024-12-10 | Ouvert |

## Leçons Apprises
- Les lacunes de surveillance peuvent masquer des problèmes critiques
- Le moment du déploiement est important
- Nécessité de meilleurs tests d'intégration pour les fuites de ressources

Rareté : Très Courant Difficulté : Difficile

Fiabilité des Systèmes Distribués

6. Comment assurez-vous la fiabilité dans une architecture de microservices distribués ?

Réponse : Les systèmes distribués introduisent des défis de fiabilité uniques :

Modèles Clés :

1. Maillage de Services pour la Résilience :

# Exemple Istio : Coupe-circuit et nouvelles tentatives
apiVersion: networking.istio.io/v1beta1
kind: DestinationRule
metadata:
  name: api-service
spec:
  host: api-service
  trafficPolicy:
    connectionPool:
      tcp:
        maxConnections: 100
      http:
        http1MaxPendingRequests: 50
        http2MaxRequests: 100
        maxRequestsPerConnection: 2
    outlierDetection:
      consecutiveErrors: 5
      interval: 30s
      baseEjectionTime: 30s
      maxEjectionPercent: 50
      minHealthPercent: 40
    loadBalancer:
      simple: LEAST_REQUEST
---
apiVersion: networking.istio.io/v1beta1
kind: VirtualService
metadata:
  name: api-service
spec:
  hosts:
  - api-service
  http:
  - retries:
      attempts: 3
      perTryTimeout: 2s
      retryOn: 5xx,reset,connect-failure,refused-stream
    timeout: 10s
    route:
    - destination:
        host: api-service

2. Traçage Distribué :

from opentelemetry import trace
from opentelemetry.exporter.jaeger.thrift import JaegerExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.instrumentation.requests import RequestsInstrumentor

# Configurer le traçage
trace.set_tracer_provider(TracerProvider())
jaeger_exporter = JaegerExporter(
    agent_host_name="jaeger",
    agent_port

Conclusion

Les meilleures réponses SRE senior ressemblent à du jugement de production, pas à des définitions récitées. Entraînez-vous à expliquer comment vous définissez des SLO à partir des parcours utilisateur, utilisez les error budgets pour guider le risque de release, validez la capacité avec de vraies données de charge, menez des expériences de chaos contrôlées, pilotez les incidents avec des rôles clairs et réduisez le toil sans masquer le risque.

Avant l’entretien, préparez deux ou trois histoires concrètes : un incident que vous avez mené, un compromis de fiabilité que vous avez influencé et une amélioration d’automatisation ou d’observabilité qui a changé le comportement de l’équipe. Pour chacune, nommez le signal, la décision, le compromis et le suivi.

Conseils carrière récents

Questions d’entretien Senior Site Reliability Engineer avec réponses

Introduction

Conception Avancée des SLO

1. Comment concevez-vous les SLI et les SLO pour un nouveau service avec des données limitées ?

2. Comment gérez-vous les SLO conflictuels entre différents segments d'utilisateurs ?

Planification de la Capacité

3. Décrivez votre processus de planification de la capacité pour un service en croissance rapide.

Ingénierie du Chaos

4. Comment implémentez-vous l'ingénierie du chaos en production ?

Leadership en Cas d'Incident

5. Comment dirigez-vous un incident de haute gravité de la détection au post-mortem ?

Fiabilité des Systèmes Distribués

6. Comment assurez-vous la fiabilité dans une architecture de microservices distribués ?

Conclusion

Conseils de carrière hebdomadaires qui fonctionnent vraiment

Conseils de carrière hebdomadaires qui fonctionnent vraiment

Articles Connexes

Questions d'entretien DevOps senior sur les systèmes de production

Questions d’entretien Senior Azure Cloud Engineer : guide par scénarios

Questions d’entretien pour ingénieur sécurité senior

Démarquez-vous auprès des Recruteurs et Décrochez Votre Emploi de Rêve

Partager cet article

Faites Compter Vos 6 Secondes