Junior Data Scientist Interviewfragen: Python, SQL, Statistik und ML

Milad Bonakdar
Autor
Bereiten Sie sich mit praxisnahen Fragen zu Python, pandas, SQL, Statistik, Machine-Learning-Grundlagen und Projekterklärungen auf Ihr Junior-Data-Scientist-Interview vor.
Einführung
In einem Interview für Junior Data Scientists geht es meist darum, ob Sie Daten bereinigen, grundlegendes Python und SQL anwenden, Statistik verständlich erklären und einfache Machine-Learning-Probleme durchdenken können. Starke Antworten sind kurz, praktisch und mit eigenen Projekten, Kursarbeiten oder Praktika verbunden.
Nutzen Sie diesen Leitfaden, um die wichtigsten Bereiche zu üben: Python-Grundlagen, Datenmanipulation mit pandas, SQL-Denken, Wahrscheinlichkeit und Statistik, Modellbewertung und klare Erklärungen zu fachlichen Kompromissen.
Python-Grundlagen (5 Fragen)
1. Was ist der Unterschied zwischen einer Liste und einem Tupel in Python?
Antwort:
- Liste: Veränderlich (kann modifiziert werden), definiert mit eckigen Klammern
[] - Tupel: Unveränderlich (kann nicht modifiziert werden), definiert mit runden Klammern
() - Performance: Tupel sind etwas schneller und verbrauchen weniger Speicher
- Anwendungsfälle:
- Listen: Wenn Sie Daten ändern müssen
- Tupel: Für feste Sammlungen, Dictionary-Schlüssel, Funktionsrückgaben
Seltenheit: Sehr häufig Schwierigkeit: Leicht
2. Erklären Sie List Comprehension und geben Sie ein Beispiel.
Antwort: List Comprehension bietet eine prägnante Möglichkeit, Listen basierend auf vorhandenen Iterables zu erstellen.
- Syntax:
[Ausdruck for Element in Iterable if Bedingung] - Vorteile: Lesbarer, oft schneller als Schleifen
Seltenheit: Sehr häufig Schwierigkeit: Leicht
3. Was sind Lambda-Funktionen und wann würden Sie sie verwenden?
Antwort: Lambda-Funktionen sind anonyme Funktionen mit einem einzigen Ausdruck.
- Syntax:
lambda Argumente: Ausdruck - Anwendungsfälle: Kurze Funktionen, Rückrufe, Sortierung, Filterung
Seltenheit: Sehr häufig Schwierigkeit: Leicht
4. Erklären Sie den Unterschied zwischen append() und extend() für Listen.
Antwort:
- append(): Fügt ein einzelnes Element am Ende der Liste hinzu
- extend(): Fügt mehrere Elemente aus einem Iterable am Ende hinzu
Seltenheit: Häufig Schwierigkeit: Leicht
5. Was sind *args und **kwargs?
Antwort: Sie ermöglichen es Funktionen, eine variable Anzahl von Argumenten zu akzeptieren.
*args: Variable Anzahl von Positionsargumenten (Tupel)**kwargs: Variable Anzahl von Schlüsselwortargumenten (Dictionary)
Seltenheit: Häufig Schwierigkeit: Mittel
Statistik & Wahrscheinlichkeit (5 Fragen)
6. Was ist der Unterschied zwischen Mittelwert, Median und Modus?
Antwort:
- Mittelwert: Durchschnitt aller Werte (Summe / Anzahl)
- Median: Mittlerer Wert nach Sortierung
- Modus: Häufigster Wert
- Wann verwenden:
- Mittelwert: Normalverteilte Daten
- Median: Schiefe Daten oder Ausreißer vorhanden
- Modus: Kategorische Daten
Seltenheit: Sehr häufig Schwierigkeit: Leicht
7. Erklären Sie Varianz und Standardabweichung.
Antwort:
- Varianz: Durchschnittliche quadrierte Abweichung vom Mittelwert
- Standardabweichung: Quadratwurzel der Varianz (gleiche Einheiten wie Daten)
- Zweck: Messen der Streuung/Dispersion von Daten
Seltenheit: Sehr häufig Schwierigkeit: Leicht
8. Was ist ein p-Wert und wie interpretieren Sie ihn?
Antwort: Der p-Wert ist die Wahrscheinlichkeit, Ergebnisse zu erhalten, die mindestens so extrem sind wie die beobachteten, unter der Annahme, dass die Nullhypothese wahr ist.
- Interpretation:
- p < 0,05: Nullhypothese ablehnen (statistisch signifikant)
- p ≥ 0,05: Nullhypothese nicht ablehnen
- Hinweis: Der p-Wert misst weder die Effektgröße noch die Bedeutung
Seltenheit: Sehr häufig Schwierigkeit: Mittel
9. Was ist der zentrale Grenzwertsatz?
Antwort: Der zentrale Grenzwertsatz besagt, dass sich die Stichprobenverteilung des Stichprobenmittelwerts einer Normalverteilung annähert, wenn die Stichprobengröße zunimmt, unabhängig von der Verteilung der Grundgesamtheit.
- Wichtige Punkte:
- Funktioniert für jede Verteilung (wenn die Stichprobengröße groß genug ist)
- Eine Stichprobengröße um 30 ist eine hilfreiche Faustregel, aber keine Garantie; schiefe oder stark ausreißende Daten können mehr benötigen
- Ermöglicht Hypothesentests und Konfidenzintervalle
Seltenheit: Häufig Schwierigkeit: Mittel
10. Was ist Korrelation vs. Kausalität?
Antwort:
- Korrelation: Statistische Beziehung zwischen zwei Variablen
- Kausalität: Eine Variable verursacht direkt Veränderungen in einer anderen
- Wichtiger Punkt: Korrelation impliziert NICHT Kausalität
- Gründe:
- Störvariablen
- Umgekehrte Kausalität
- Zufall
Seltenheit: Sehr häufig Schwierigkeit: Leicht
Datenmanipulation mit Pandas (5 Fragen)
11. Wie lesen Sie eine CSV-Datei und zeigen grundlegende Informationen an?
Antwort: Verwenden Sie Pandas, um Daten zu lesen und zu untersuchen.
Seltenheit: Sehr häufig Schwierigkeit: Leicht
12. Wie behandeln Sie fehlende Werte in einem DataFrame?
Antwort: Mehrere Strategien zur Behandlung fehlender Daten:
Seltenheit: Sehr häufig Schwierigkeit: Leicht
13. Wie filtern und wählen Sie Daten in Pandas aus?
Antwort: Mehrere Möglichkeiten zum Filtern und Auswählen von Daten:
Seltenheit: Sehr häufig Schwierigkeit: Leicht
14. Wie gruppieren und aggregieren Sie Daten?
Antwort:
Verwenden Sie groupby() für Aggregationsoperationen:
Seltenheit: Sehr häufig Schwierigkeit: Mittel
15. Wie führen Sie DataFrames zusammen oder verbinden sie?
Antwort:
Verwenden Sie merge(), join() oder concat():
Seltenheit: Sehr häufig Schwierigkeit: Mittel
Grundlagen des maschinellen Lernens (5 Fragen)
16. Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen?
Antwort:
- Überwachtes Lernen:
- Hat beschriftete Trainingsdaten (Eingabe-Ausgabe-Paare)
- Ziel: Lernen einer Abbildung von Eingaben zu Ausgaben
- Beispiele: Klassifizierung, Regression
- Algorithmen: Lineare Regression, Entscheidungsbäume, SVM
- Unüberwachtes Lernen:
- Keine beschrifteten Daten (nur Eingaben)
- Ziel: Finden von Mustern oder Strukturen in Daten
- Beispiele: Clustering, Dimensionsreduktion
- Algorithmen: K-Means, PCA, Hierarchisches Clustering
Seltenheit: Sehr häufig Schwierigkeit: Leicht
17. Was ist Overfitting und wie verhindern Sie es?
Antwort: Overfitting tritt auf, wenn ein Modell Trainingsdaten zu gut lernt, einschließlich Rauschen, und bei neuen Daten schlecht abschneidet.
- Anzeichen:
- Hohe Trainingsgenauigkeit, niedrige Testgenauigkeit
- Modell zu komplex für die Daten
- Prävention:
- Mehr Trainingsdaten
- Kreuzvalidierung
- Regularisierung (L1, L2)
- Einfachere Modelle
- Frühes Stoppen
- Dropout (neuronale Netze)
Seltenheit: Sehr häufig Schwierigkeit: Mittel
18. Erklären Sie die Train-Test-Aufteilung und warum sie wichtig ist.
Antwort: Die Train-Test-Aufteilung teilt Daten in Trainings- und Testdatensätze auf, um die Modellleistung anhand ungesehener Daten zu bewerten.
- Zweck: Overfitting verhindern, realistische Leistung schätzen
- Typische Aufteilung: 70-30 oder 80-20 (Train-Test)
- Kreuzvalidierung: Robustere Bewertung
Seltenheit: Sehr häufig Schwierigkeit: Leicht
19. Welche Bewertungsmetriken verwenden Sie für die Klassifizierung?
Antwort: Verschiedene Metriken für verschiedene Szenarien:
- Genauigkeit (Accuracy): Gesamte Korrektheit (gut für ausgewogene Datensätze)
- Präzision (Precision): Von den vorhergesagten Positiven, wie viele sind korrekt
- Trefferquote (Recall): Von den tatsächlichen Positiven, wie viele wurden gefunden
- F1-Score: Harmonisches Mittel aus Präzision und Trefferquote
- Konfusionsmatrix: Detaillierte Aufschlüsselung der Vorhersagen
Seltenheit: Sehr häufig Schwierigkeit: Mittel
20. Was ist der Unterschied zwischen Klassifizierung und Regression?
Antwort:
- Klassifizierung:
- Sagt diskrete Kategorien/Klassen voraus
- Ausgabe: Klassenbezeichnung
- Beispiele: Spam-Erkennung, Bildklassifizierung
- Algorithmen: Logistische Regression, Entscheidungsbäume, SVM
- Metriken: Genauigkeit, Präzision, Trefferquote, F1
- Regression:
- Sagt kontinuierliche numerische Werte voraus
- Ausgabe: Zahl
- Beispiele: Hauspreisvorhersage, Temperaturvorhersage
- Algorithmen: Lineare Regression, Random Forest Regressor
- Metriken: MSE, RMSE, MAE, R²
Seltenheit: Sehr häufig Schwierigkeit: Leicht


