Junior Machine Learning Engineer: Interviewfragen

Milad Bonakdar
Autor
Bereiten Sie sich auf Interviews als Junior ML Engineer vor: Python, Modellevaluierung, Data Leakage, Deployment, Monitoring und MLOps mit klaren Antwortansätzen.
Junior Machine Learning Engineer: Interviewfragen
In einem Interview als Junior Machine Learning Engineer sollten Sie erklären können, wie Sie zuverlässigen Python-Code schreiben, Modelle trainieren und evaluieren, Data Leakage vermeiden, Modelle für das Deployment vorbereiten und Vorhersagen nach dem Release überwachen. Gute Antworten zeigen nicht nur den Algorithmus, sondern auch Datenannahmen, Metrikwahl und Produktions-Trade-offs.
Dieser Leitfaden hilft Ihnen, typische Fragen für Einstiegsrollen im ML Engineering zu üben: Python, klassische ML-Algorithmen, Validierung, unausgewogene Daten, Model Serving, Docker, Monitoring und CI/CD-Grundlagen.
Python & Programmierung (5 Fragen)
1. Wie handhaben Sie große Datensätze, die nicht in den Speicher passen?
Antwort: Es gibt verschiedene Techniken, um Daten zu verarbeiten, die größer sind als der verfügbare RAM:
- Batch-Verarbeitung: Daten in Blöcken verarbeiten
- Generatoren: Daten bei Bedarf liefern
- Dask/Ray: Frameworks für verteiltes Rechnen
- Datenbankabfragen: Nur benötigte Daten laden
- Memory-Mapped Files: Zugriff auf die Festplatte, als ob sie sich im Speicher befindet
- Data Streaming: Daten verarbeiten, sobald sie eintreffen
Seltenheit: Sehr häufig Schwierigkeit: Mittel
2. Erklären Sie Dekoratoren in Python und nennen Sie einen ML-Anwendungsfall.
Antwort: Dekoratoren modifizieren oder erweitern Funktionen, ohne ihren Code zu verändern.
- Anwendungsfälle in ML:
- Zeitmessung der Funktionsausführung
- Protokollierung von Vorhersagen
- Zwischenspeichern von Ergebnissen
- Eingabevalidierung
Seltenheit: Häufig Schwierigkeit: Mittel
3. Was ist der Unterschied zwischen @staticmethod und @classmethod?
Antwort: Beide definieren Methoden, die keine Instanz benötigen.
- @staticmethod: Kein Zugriff auf Klasse oder Instanz
- @classmethod: Empfängt die Klasse als erstes Argument
Seltenheit: Mittel Schwierigkeit: Mittel
4. Wie handhaben Sie Ausnahmen in ML-Pipelines?
Antwort: Eine ordnungsgemäße Fehlerbehandlung verhindert Pipeline-Fehler und hilft beim Debuggen.
Seltenheit: Häufig Schwierigkeit: Mittel
5. Was sind Python-Generatoren und warum sind sie in ML nützlich?
Antwort: Generatoren liefern Werte einzeln und sparen so Speicher.
- Vorteile:
- Speicher effizient
- Lazy Evaluation
- Unendliche Sequenzen
- ML-Anwendungsfälle:
- Daten laden
- Batch-Verarbeitung
- Datenerweiterung
Seltenheit: Häufig Schwierigkeit: Mittel
ML-Algorithmen & Theorie (5 Fragen)
6. Erklären Sie den Unterschied zwischen Bagging und Boosting.
Antwort: Beide sind Ensemble-Methoden, funktionieren aber unterschiedlich:
- Bagging (Bootstrap Aggregating):
- Paralleles Training auf zufälligen Teilmengen
- Reduziert die Varianz
- Beispiel: Random Forest
- Boosting:
- Sequentielles Training, jedes Modell korrigiert vorherige Fehler
- Reduziert die Verzerrung (Bias)
- Beispiele: AdaBoost, Gradient Boosting, XGBoost
Seltenheit: Sehr häufig Schwierigkeit: Mittel
7. Wie handhaben Sie unausgeglichene Datensätze?
Antwort: Unausgeglichene Daten können Modelle in Richtung der Mehrheitsklasse verzerren.
- Techniken:
- Resampling: SMOTE, Undersampling
- Klassengewichte: Bestrafen Sie Fehlklassifizierung
- Ensemble-Methoden: Balanced Random Forest
- Evaluierung: Verwenden Sie F1, Precision, Recall (nicht Accuracy)
- Schwellwertanpassung: Optimieren Sie den Entscheidungsschwellwert
Seltenheit: Sehr häufig Schwierigkeit: Mittel
8. Was ist Kreuzvalidierung und warum ist sie wichtig?
Antwort: Die Kreuzvalidierung bewertet die Modellleistung zuverlässiger als eine einzelne Train-Test-Aufteilung.
- Typen:
- K-Fold: Aufteilung in k Folds
- Stratified K-Fold: Bewahrt die Klassenverteilung
- Time Series Split: Berücksichtigt die zeitliche Reihenfolge
- Vorteile:
- Robusterer Leistungsschätzer
- Verwendet alle Daten für Training und Validierung
- Erkennt Overfitting
Seltenheit: Sehr häufig Schwierigkeit: Leicht
9. Erklären Sie Precision, Recall und F1-Score.
Antwort: Klassifikationsmetriken zur Bewertung der Modellleistung:
- Precision (Genauigkeit): Von den vorhergesagten Positiven, wie viele sind korrekt?
- Formel: TP / (TP + FP)
- Verwenden, wenn: Falsch Positive kostspielig sind
- Recall (Trefferquote): Von den tatsächlichen Positiven, wie viele wurden gefunden?
- Formel: TP / (TP + FN)
- Verwenden, wenn: Falsch Negative kostspielig sind
- F1-Score: Harmonisches Mittel aus Precision und Recall
- Formel: 2 × (Precision × Recall) / (Precision + Recall)
- Verwenden, wenn: Ein Gleichgewicht zwischen Precision und Recall erforderlich ist
Seltenheit: Sehr häufig Schwierigkeit: Leicht
10. Was ist Regularisierung und wann würden Sie sie verwenden?
Antwort: Die Regularisierung verhindert Overfitting, indem sie die Modellkomplexität bestraft.
- Typen:
- L1 (Lasso): Addiert den Absolutwert der Koeffizienten
- L2 (Ridge): Addiert die quadrierten Koeffizienten
- Elastic Net: Kombiniert L1 und L2
- Wann verwenden:
- Hohe Varianz (Overfitting)
- Viele Features
- Multikollinearität
Seltenheit: Sehr häufig Schwierigkeit: Mittel
Modelltraining & Bereitstellung (5 Fragen)
11. Wie speichern und laden Sie Modelle in der Produktion?
Antwort: Die Modellserialisierung ermöglicht die Bereitstellung und Wiederverwendung.
Seltenheit: Sehr häufig Schwierigkeit: Leicht
12. Wie erstellen Sie eine REST-API für die Modellbereitstellung?
Antwort: REST-APIs machen Modelle für Anwendungen zugänglich.
Seltenheit: Sehr häufig Schwierigkeit: Mittel
13. Was ist Docker und warum ist es nützlich für die ML-Bereitstellung?
Antwort: Docker-Container packen Anwendungen mit allen Abhängigkeiten.
- Vorteile:
- Reproduzierbarkeit
- Konsistenz über verschiedene Umgebungen hinweg
- Einfache Bereitstellung
- Isolation
Seltenheit: Häufig Schwierigkeit: Mittel
14. Wie überwachen Sie die Modellleistung in der Produktion?
Antwort: Die Überwachung erkennt den Modellabbau und gewährleistet die Zuverlässigkeit.
- Was ist zu überwachen:
- Vorhersagemetriken: Genauigkeit, Latenz
- Data Drift: Änderungen der Eingabeverteilung
- Model Drift: Leistungsverschlechterung
- Systemmetriken: CPU, Speicher, Fehler
Seltenheit: Häufig Schwierigkeit: Mittel
15. Was ist CI/CD für maschinelles Lernen?
Antwort: CI/CD automatisiert das Testen und die Bereitstellung von ML-Modellen.
- Continuous Integration:
- Automatisiertes Testen
- Code-Qualitätsprüfungen
- Modellvalidierung
- Continuous Deployment:
- Automatisierte Bereitstellung
- Rollback-Funktionen
- A/B-Tests


