Senior AWS Cloud Engineer Interviewfragen mit Antworten

Milad Bonakdar
Autor
Bereiten Sie sich mit praxisnahen Fragen zu AWS-Architektur, Networking, Auto Scaling, Lambda, Kostenoptimierung, IAM-Sicherheit, RDS und Troubleshooting auf Senior-Interviews vor.
Einführung
In Senior-Interviews für AWS Cloud Engineers geht es meist nicht darum, Services aufzuzählen, sondern Produktionsentscheidungen sauber zu begründen. Sie sollten erklären können, warum eine Architektur funktioniert, wie das Sicherheitsmodell aussieht, welche Kostenfolgen entstehen, wie Failover geplant ist und wie der Betrieb nach dem Launch überwacht wird.
Dieser Leitfaden behandelt senior-gerechte AWS-Interviewfragen mit praxisnahen Antworten zu Architektur, Networking, Compute, Kostenoptimierung, IAM-Sicherheit, Datenbanken, Monitoring und Troubleshooting.
Architektur & Design
1. Entwerfen Sie eine hochverfügbare, mehrschichtige Webanwendung auf AWS.
Antwort: Eine produktionsreife, mehrschichtige Architektur erfordert Redundanz, Skalierbarkeit und Sicherheit:
Wichtige Komponenten:
1. DNS & CDN:
2. Load Balancing & Auto Scaling:
3. Datenbank & Caching:
- RDS Multi-AZ für hohe Verfügbarkeit
- Read Replicas für Leseskalierung
- ElastiCache für Sitzungs-/Datencaching
Designprinzipien:
- Bereitstellung über mehrere AZs hinweg
- Verwenden Sie nach Möglichkeit verwaltete Dienste
- Implementieren Sie Auto Scaling
- Trennen Sie Schichten mit Sicherheitsgruppen
- Verwenden Sie S3 für statische Inhalte
Seltenheit: Sehr häufig Schwierigkeitsgrad: Schwer
2. Erläutern Sie VPC Peering und wann es verwendet werden sollte.
Antwort: VPC Peering verbindet zwei VPCs privat über das AWS-Netzwerk.
Eigenschaften:
- Private Konnektivität (kein Internet)
- Kein Single Point of Failure
- Kein Bandbreitenengpass
- Unterstützt regionsübergreifendes Peering
- Nicht transitiv (A↔B, B↔C bedeutet nicht A↔C)
Anwendungsfälle:
- Verbinden Sie Produktions- und Management-VPCs
- Gemeinsame Nutzung von Ressourcen über VPCs hinweg
- Multi-Account-Architekturen
- Hybrid-Cloud-Konnektivität
Alternativen:
- Transit Gateway: Hub-and-Spoke, transitives Routing
- PrivateLink: Service-to-Service-Konnektivität
- VPN: Verschlüsselte Konnektivität
Seltenheit: Häufig Schwierigkeitsgrad: Mittel
Erweiterte Rechenleistung
3. Wie funktioniert Auto Scaling und wie optimiert man es?
Antwort: Auto Scaling passt die Kapazität automatisch an die Nachfrage an.
Skalierungsrichtlinien:
1. Zielverfolgung:
2. Step Scaling:
3. Geplante Skalierung:
Optimierungsstrategien:
- Verwenden Sie Predictive Scaling für bekannte Muster
- Legen Sie geeignete Abkühlungsphasen fest
- Überwachen Sie Skalierungsmetriken
- Verwenden Sie gemischte Instance-Typen
- Implementieren Sie Lifecycle Hooks für ein ordnungsgemäßes Herunterfahren
Seltenheit: Sehr häufig Schwierigkeitsgrad: Mittel bis schwer
Serverlos & Erweiterte Dienste
4. Wann würden Sie Lambda vs. EC2 verwenden?
Antwort: Wählen Sie basierend auf den Workload-Eigenschaften:
Verwenden Sie Lambda, wenn:
- Ereignisgesteuerte Workloads
- Kurz laufende Aufgaben (< 15 Minuten)
- Variabler/unvorhersehbarer Traffic
- Sie keine Serververwaltung wünschen
- Kostenoptimierung für sporadische Nutzung
Verwenden Sie EC2, wenn:
- Lang laufende Prozesse
- Sie die vollständige Betriebssystemkontrolle benötigen
- Spezifische Softwareanforderungen
- Konstante hohe Last
- Stateful-Anwendungen
Lambda-Beispiel:
Kostenvergleich:
- Lambda: Bezahlung pro Anfrage + Dauer
- EC2: Bezahlung für Betriebszeit (auch im Leerlauf)
Seltenheit: Häufig Schwierigkeitsgrad: Mittel
Kostenoptimierung
5. Wie optimieren Sie die AWS-Kosten?
Antwort: Eine starke Senior-Antwort behandelt Kostenoptimierung als laufenden Betriebsprozess, nicht als einmalige Aufräumaktion:
Strategien:
1. Richtig dimensionieren (Right-Sizing):
2. Reserved Instances & Savings Plans:
- 1-Jahres- oder 3-Jahres-Verpflichtungen
- Bis zu 72 % Einsparungen gegenüber On-Demand
- Für stabile Compute-Lasten nutzen, nachdem Cost-Explorer-Empfehlungen, bestehende Commitments und geplante Änderungen geprüft wurden
3. Spot-Instances:
4. S3-Lifecycle-Richtlinien:
5. Auto Scaling:
- Herunterskalieren außerhalb der Geschäftszeiten
- Verwenden Sie Predictive Scaling
6. Überwachung:
- AWS Cost Explorer
- Budgetwarnungen
- Taggen Sie Ressourcen für die Kostenaufteilung
Seltenheit: Sehr häufig Schwierigkeitsgrad: Mittel
Sicherheit & Compliance
6. Wie implementieren Sie Defense in Depth auf AWS?
Antwort: Eine Senior-Antwort sollte präventive Kontrollen, Erkennung und schnelle Reaktion über alle Ebenen verbinden:
Schichten:
1. Netzwerksicherheit:
2. Identität & Zugriff:
- Federation und temporäre Credentials für Menschen und Workloads bevorzugen
- MFA erzwingen, wenn langlebige oder Root-Credentials noch existieren
- Least Privilege vergeben und ungenutzte Berechtigungen regelmäßig prüfen
- IAM Access Analyzer nutzen, um Policies zu validieren und öffentlichen, kontoübergreifenden oder ungenutzten Zugriff zu finden
3. Datenschutz:
- Verschlüsselung im Ruhezustand (KMS)
- Verschlüsselung bei der Übertragung (TLS)
- S3-Bucket-Richtlinien
- RDS-Verschlüsselung
4. Überwachung & Protokollierung:
5. Compliance:
- AWS Config für die Compliance-Überwachung
- Security Hub für zentralisierte Ergebnisse
- GuardDuty zur Erkennung von Bedrohungen
Seltenheit: Sehr häufig Schwierigkeitsgrad: Schwer
Datenbankdienste
7. Erläutern Sie RDS Multi-AZ vs. Read Replicas und wann Sie welche verwenden sollten.
Antwort: Beide bieten Redundanz, dienen aber unterschiedlichen Zwecken:
Multi-AZ-Bereitstellung:
- Zweck: Hohe Verfügbarkeit und Notfallwiederherstellung
- Synchrone Replikation auf Standby in einer anderen AZ
- Automatisches Failover (1-2 Minuten)
- Gleicher Endpunkt nach dem Failover
- Standard-Multi-AZ-DB-Instances bedienen keine Lesezugriffe vom Standby; Multi-AZ-DB-Cluster können lesbare Standbys bieten, daher die genaue RDS-Topologie klären
- Erhöht die Kosten für Standby-Kapazität und Storage; gegen Recovery-Anforderungen abwägen
Read Replicas:
- Zweck: Skalierung von Lesevorgängen
- Asynchrone Replikation
- Mehrere Replikate möglich (bis zu 15 für Aurora)
- Unterschiedliche Endpunkte für jedes Replikat
- Kann sich in verschiedenen Regionen befinden
- Kann zu einer eigenständigen Datenbank hochgestuft werden
Vergleichstabelle:
Bewährte Methode: Verwenden Sie beides zusammen
- Multi-AZ für hohe Verfügbarkeit
- Read Replicas für Leseskalierung
Seltenheit: Sehr häufig Schwierigkeitsgrad: Mittel bis schwer
8. Wie implementieren Sie eine Datenbankmigration mit minimaler Ausfallzeit?
Antwort: Datenbankmigrationsstrategien für Produktionssysteme:
Strategie 1: AWS DMS (Database Migration Service)
Migrationsphasen:
1. Vollständiges Laden:
- Kopieren Sie vorhandene Daten
- Kann Stunden/Tage dauern
- Anwendung verwendet weiterhin Quelle
2. CDC (Change Data Capture):
- Replizieren Sie laufende Änderungen
- Hält das Ziel synchron
- Minimale Verzögerung (Sekunden)
3. Cutover:
Strategie 2: Blue-Green Deployment
Vergleich der Ausfallzeiten:
- DMS: < 1 Minute (nur Cutover)
- Blue-Green: < 30 Sekunden (DNS-Switch)
- Traditionelles Dump/Restore: Stunden bis Tage
Seltenheit: Häufig Schwierigkeitsgrad: Schwer
Überwachung & Fehlerbehebung
9. Wie beheben Sie hohe AWS-Kosten?
Antwort: Die Kostenoptimierung erfordert eine systematische Analyse:
Untersuchungsschritte:
1. Verwenden Sie Cost Explorer:
2. Kostenanomalien identifizieren:
3. Skript zur Ressourcenbereinigung:
4. Kostenwarnungen einrichten:
Schnelle Erfolge:
- Löschen Sie nicht angehängte EBS-Volumes
- Stoppen/Beenden Sie leerlaufende EC2-Instances
- Verwenden Sie S3 Intelligent-Tiering
- Aktivieren Sie S3-Lifecycle-Richtlinien
- Verwenden Sie Spot-Instances für nicht kritische Workloads
- Richtig dimensionieren Sie überdimensionierte Instances
Seltenheit: Sehr häufig Schwierigkeitsgrad: Mittel
Erweiterte Vernetzung
10. Erläutern Sie AWS Transit Gateway und seine Anwendungsfälle.
Antwort: Transit Gateway ist ein Hub-and-Spoke-Netzwerktopologiedienst, der die Netzwerkarchitektur vereinfacht.
Ohne Transit Gateway:
Problem: N² Verbindungen (Mesh-Topologie)
Mit Transit Gateway:
Lösung: Hub-and-Spoke (N Verbindungen)
Hauptmerkmale:
- Transitives Routing: A→TGW→B→TGW→C funktioniert
- Zentralisierte Verwaltung
- Unterstützt bis zu 5.000 VPCs
- Regionsübergreifendes Peering
- Routing-Tabellen für die Traffic-Steuerung
Einrichtung:
Anwendungsfälle:
1. Multi-VPC-Architektur:
2. Netzwerksegmentierung:
3. Multi-Region-Konnektivität:
Kostenüberlegungen:
- Attachments und Datenverarbeitung sind kostenpflichtig; Traffic vor der Zentralisierung schätzen
- Zentrale Inspection, NAT und regionsübergreifendes Routing können die Rechnung schnell verändern
- Aktuelle regionale Preise prüfen, bevor Transit Gateway gegenüber Peering oder PrivateLink gewählt wird
Alternativen:
- VPC Peering: Einfacher, günstiger für wenige VPCs
- PrivateLink: Service-to-Service-Konnektivität
- VPN: Direkte Verbindungen
Seltenheit: Häufig Schwierigkeitsgrad: Schwer
Fazit
Vorstellungsgespräche für erfahrene AWS Cloud Engineers erfordern fundierte technische Kenntnisse und praktische Erfahrung. Konzentrieren Sie sich auf:
- Architektur: Mehrschichtige Designs, hohe Verfügbarkeit, Notfallwiederherstellung
- Erweiterte Vernetzung: VPC Peering, Transit Gateway, PrivateLink
- Rechenleistung: Auto Scaling-Optimierung, Lambda vs. EC2-Entscheidungen
- Kostenoptimierung: Richtig dimensionieren, Reserved Instances, Lifecycle-Richtlinien
- Sicherheit: Defense in Depth, bewährte IAM-Methoden, Verschlüsselung
- Operative Exzellenz: Überwachung, Protokollierung, Automatisierung
Stützen Sie jede Antwort mit einem Produktionsbeispiel: welche Abwägung Sie getroffen haben, welchen Fehlermodus Sie geplant haben, welche Metrik Sie überwacht haben und was Sie als Nächstes verbessern würden.


