Interviewfragen für Senior Machine Learning Engineers zu Production ML

Milad Bonakdar
Autor
Interviews für Senior ML Engineers prüfen Produktionsdenken: Systemdesign, MLOps, verteiltes Training, Latenz, Monitoring und Trade-offs. Nutzen Sie diese Fragen für klare, praxisnahe Antworten.
Einführung
Interviews für Senior Machine Learning Engineers prüfen vor allem Produktionsurteil: Können Sie ein ML-System entwerfen, das genau genug, schnell genug, beobachtbar, reproduzierbar und nach dem Launch wartbar ist? Rechnen Sie mit Fragen zu MLOps, ML-Systemdesign, Model Serving, verteiltem Training, Feature-Pipelines, Drift und Experimenten.
Nutzen Sie diesen Leitfaden, um Antworten zu üben, die Trade-offs erklären statt nur Tools aufzuzählen. Eine starke Senior-Antwort beginnt mit Anforderungen und Metriken und verbindet dann Daten, Features, Training, Deployment, Monitoring und Rollback.
Verteiltes Training & Skalierbarkeit (5 Fragen)
1. Wie implementieren Sie verteiltes Training für Deep-Learning-Modelle?
Antwort: Verteiltes Training parallelisiert die Berechnung auf mehrere GPUs/Maschinen.
- Strategien:
- Data Parallelism (Datenparallelität): Dasselbe Modell, verschiedene Daten-Batches
- Model Parallelism (Modellparallelität): Modell auf Geräte aufteilen
- Pipeline Parallelism (Pipeline-Parallelität): Modell in Stufen aufteilen
- Frameworks: PyTorch DDP, Horovod, TensorFlow MirroredStrategy
Seltenheit: Häufig Schwierigkeit: Schwer
2. Erklären Sie Gradientenakkumulation und wann sie verwendet werden sollte.
Antwort: Die Gradientenakkumulation simuliert größere Batch-Größen, wenn der GPU-Speicher begrenzt ist.
- Funktionsweise: Gradienten über mehrere Vorwärtsdurchläufe akkumulieren, bevor die Gewichte aktualisiert werden
- Anwendungsfälle: Große Modelle, begrenzter GPU-Speicher, stabiles Training
Seltenheit: Häufig Schwierigkeit: Mittel
3. Wie optimieren Sie die Latenz der Modellinferenz?
Antwort: Mehrere Techniken reduzieren die Inferenzzeit:
- Modelloptimierung:
- Quantisierung (INT8, FP16)
- Pruning (Gewichte entfernen)
- Knowledge Distillation (Wissensdestillation)
- Modellkompilierung (TorchScript, ONNX)
- Serving-Optimierung:
- Batching
- Caching
- Modellparallelität
- Hardwarebeschleunigung (GPU, TPU)
Seltenheit: Sehr häufig Schwierigkeit: Schwer
4. Was ist Mixed Precision Training und wie funktioniert es?
Antwort: Mixed Precision verwendet FP16 und FP32, um das Training zu beschleunigen und gleichzeitig die Genauigkeit zu erhalten.
- Vorteile:
- Schnelleres Training auf geeigneter Hardware
- Reduzierter Speicherverbrauch
- Größere Batch-Größen
- Herausforderungen:
- Numerische Stabilität
- Gradient Underflow (Unterlauf)
- Lösung: Gradient Scaling (Gradientenskalierung)
Seltenheit: Häufig Schwierigkeit: Mittel
5. Wie handhaben Sie Engpässe in der Datenpipeline?
Antwort: Das Laden von Daten ist oft ein Engpass beim Training. Optimieren Sie mit:
- Prefetching (Vorabruf): Laden des nächsten Batches während des Trainings
- Paralleles Laden: Mehrere Worker
- Caching: Speichern vorverarbeiteter Daten
- Datenformat: Verwenden Sie effiziente Formate (TFRecord, Parquet)
Seltenheit: Häufig Schwierigkeit: Mittel
MLOps & Infrastruktur (5 Fragen)
6. Wie entwerfen Sie einen Feature Store?
Antwort: Feature Stores zentralisieren Feature Engineering und Serving.
- Komponenten:
- Offline Store: Historische Features für das Training (S3, BigQuery)
- Online Store: Features mit geringer Latenz für das Serving (Redis, DynamoDB)
- Feature Registry: Metadaten und Lineage
- Vorteile:
- Wiederverwendbarkeit
- Konsistenz (Training/Serving)
- Überwachung
Seltenheit: Mittel Schwierigkeit: Schwer
7. Wie implementieren Sie Modellversionierung und Experiment Tracking?
Antwort: Verfolgen Sie Experimente, um Ergebnisse zu reproduzieren und Modelle zu vergleichen.
Seltenheit: Sehr häufig Schwierigkeit: Mittel
8. Wie stellen Sie Modelle auf Kubernetes bereit?
Antwort: Kubernetes orchestriert containerisierte ML-Dienste.
Seltenheit: Häufig Schwierigkeit: Schwer
9. Was ist Model Drift und wie erkennen Sie ihn?
Antwort: Model Drift tritt auf, wenn sich die Modellleistung im Laufe der Zeit verschlechtert.
- Typen:
- Data Drift (Datendrift): Eingabeverteilung ändert sich
- Concept Drift (Konzeptdrift): Beziehung zwischen X und y ändert sich
- Erkennung:
- Statistische Tests (KS-Test, PSI)
- Leistungsüberwachung
- Verteilungsvergleich
Seltenheit: Häufig Schwierigkeit: Schwer
10. Wie implementieren Sie A/B-Tests für ML-Modelle?
Antwort: A/B-Tests vergleichen Modellversionen in der Produktion.
Seltenheit: Häufig Schwierigkeit: Schwer


