Leitfaden für Vorstellungsgespräche für Senior Data Analysten: Fragen und Antworten

Einführung

Von Senior Data Analysts wird erwartet, dass sie komplexe Analyseprojekte leiten, robuste Datenlösungen entwerfen, Geschäftsprozesse optimieren und Erkenntnisse kommunizieren, die strategische Entscheidungen vorantreiben. Diese Rolle erfordert Expertise in fortgeschrittenem SQL, statistischer Analyse, Datenmodellierung, ETL-Prozessen und Stakeholder-Management.

Dieser umfassende Leitfaden behandelt wichtige Interviewfragen für Senior Data Analysts, die fortgeschrittene SQL-Techniken, statistische Analyse, Datenmodellierung, ETL-Prozesse, Dashboard-Optimierung und Geschäftsstrategie umfassen. Jede Frage enthält detaillierte Antworten, eine Seltenheitseinschätzung und Schwierigkeitsgrade.

Fortgeschrittenes SQL (6 Fragen)

1. Erklären Sie Window-Funktionen und geben Sie Beispiele.

Antwort: Window-Funktionen führen Berechnungen über eine Menge von Zeilen aus, die sich auf die aktuelle Zeile beziehen, ohne das Ergebnis zu reduzieren.

Gängige Window-Funktionen:
- ROW_NUMBER(): Eindeutige fortlaufende Nummer
- RANK(): Rang mit Lücken bei Gleichständen
- DENSE_RANK(): Rang ohne Lücken
- LAG/LEAD(): Zugriff auf vorherige/nächste Zeile
- SUM/AVG/COUNT() OVER(): Laufende Summen/Durchschnitte

-- ROW_NUMBER: Eindeutige Nummern zuweisen
SELECT 
    employee_id,
    first_name,
    salary,
    ROW_NUMBER() OVER (ORDER BY salary DESC) AS row_num
FROM employees;

-- RANK: Mitarbeiter nach Gehalt innerhalb jeder Abteilung einstufen
SELECT 
    department,
    employee_id,
    salary,
    RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS dept_rank
FROM employees;

-- LAG: Mit vorheriger Zeile vergleichen
SELECT 
    year,
    revenue,
    LAG(revenue) OVER (ORDER BY year) AS prev_year_revenue,
    revenue - LAG(revenue) OVER (ORDER BY year) AS revenue_change
FROM annual_sales;

-- Laufende Summe
SELECT 
    order_date,
    amount,
    SUM(amount) OVER (ORDER BY order_date) AS running_total
FROM orders;

-- Gleitender Durchschnitt (letzte 3 Monate)
SELECT 
    month,
    sales,
    AVG(sales) OVER (
        ORDER BY month 
        ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
    ) AS moving_avg_3m
FROM monthly_sales;

Seltenheit: Sehr häufig Schwierigkeit: Schwer

2. Wie optimieren Sie langsame SQL-Abfragen?

Antwort: Die Abfrageoptimierung verbessert die Leistung und reduziert die Ressourcennutzung.

Techniken:
- Indizierung: Indizes für häufig abgefragte Spalten erstellen
- *Vermeiden Sie SELECT : Wählen Sie nur die benötigten Spalten aus
- Verwenden Sie WHERE effizient: Frühzeitig filtern
- JOINs optimieren: JOIN auf indizierten Spalten
- Subqueries vermeiden: Verwenden Sie stattdessen JOINs oder CTEs
- EXPLAIN verwenden: Abfrageausführungsplan analysieren
- Tabellen partitionieren: Für sehr große Tabellen
- Effizient aggregieren: Verwenden Sie die entsprechende GROUP BY-Klausel

-- Schlecht: SELECT * und Subquery
SELECT * FROM orders
WHERE customer_id IN (
    SELECT customer_id FROM customers WHERE country = 'USA'
);

-- Gut: Spezifische Spalten und JOIN
SELECT o.order_id, o.order_date, o.amount
FROM orders o
INNER JOIN customers c ON o.customer_id = c.customer_id
WHERE c.country = 'USA';

-- Verwenden Sie EXPLAIN zur Analyse
EXPLAIN SELECT * FROM orders WHERE order_date > '2023-01-01';

-- Index erstellen für bessere Leistung
CREATE INDEX idx_order_date ON orders(order_date);

-- Covering Index verwenden (enthält alle benötigten Spalten)
CREATE INDEX idx_orders_covering ON orders(customer_id, order_date, amount);

-- Große Tabellen partitionieren
CREATE TABLE orders_2023 PARTITION OF orders
FOR VALUES FROM ('2023-01-01') TO ('2024-01-01');

Seltenheit: Sehr häufig Schwierigkeit: Schwer

3. Was sind CTEs (Common Table Expressions) und wann würden Sie sie verwenden?

Antwort: CTEs erstellen temporäre benannte Ergebnismengen, die nur während der Abfrageausführung existieren.

Vorteile:
- Verbessern die Lesbarkeit
- Ermöglichen Rekursion
- Wiederverwendung in derselben Abfrage
- Besser als Subqueries für komplexe Logik

-- Basis-CTE
WITH high_earners AS (
    SELECT employee_id, first_name, salary
    FROM employees
    WHERE salary > 80000
)
SELECT * FROM high_earners
WHERE first_name LIKE 'J%';

-- Mehrere CTEs
WITH 
sales_summary AS (
    SELECT 
        product_id,
        SUM(quantity) AS total_quantity,
        SUM(amount) AS total_revenue
    FROM sales
    GROUP BY product_id
),
product_info AS (
    SELECT product_id, product_name, category
    FROM products
)
SELECT 
    p.product_name,
    p.category,
    s.total_quantity,
    s.total_revenue
FROM sales_summary s
JOIN product_info p ON s.product_id = p.product_id
ORDER BY s.total_revenue DESC;

-- Rekursive CTE (Organisationshierarchie)
WITH RECURSIVE employee_hierarchy AS (
    -- Basisfall: Mitarbeiter der obersten Ebene
    SELECT employee_id, first_name, manager_id, 1 AS level
    FROM employees
    WHERE manager_id IS NULL
    
    UNION ALL
    
    -- Rekursiver Fall: Mitarbeiter, die der vorherigen Ebene unterstellt sind
    SELECT e.employee_id, e.first_name, e.manager_id, eh.level + 1
    FROM employees e
    JOIN employee_hierarchy eh ON e.manager_id = eh.employee_id
)
SELECT * FROM employee_hierarchy
ORDER BY level, employee_id;

Seltenheit: Häufig Schwierigkeit: Mittel

4. Erklären Sie den Unterschied zwischen UNION und UNION ALL.

Antwort: Beide kombinieren Ergebnisse aus mehreren SELECT-Anweisungen.

UNION:
- Entfernt doppelte Zeilen
- Langsamer (erfordert Sortierung/Vergleich)
- Verwenden Sie, wenn Duplikate entfernt werden sollen
UNION ALL:
- Behält alle Zeilen einschließlich Duplikate
- Schneller (keine Deduplizierung)
- Verwenden Sie, wenn Duplikate akzeptabel oder unmöglich sind

-- UNION - entfernt Duplikate
SELECT customer_id FROM orders_2022
UNION
SELECT customer_id FROM orders_2023;
-- Ergebnis: eindeutige Kunden-IDs aus beiden Jahren

-- UNION ALL - behält Duplikate
SELECT customer_id FROM orders_2022
UNION ALL
SELECT customer_id FROM orders_2023;
-- Ergebnis: alle Kunden-IDs (können Duplikate enthalten)

-- Leistungsvergleich
-- UNION ALL ist schneller, wenn Sie wissen, dass keine Duplikate vorhanden sind
SELECT 'Q1' AS quarter, revenue FROM q1_sales
UNION ALL
SELECT 'Q2', revenue FROM q2_sales
UNION ALL
SELECT 'Q3', revenue FROM q3_sales
UNION ALL
SELECT 'Q4', revenue FROM q4_sales;

Seltenheit: Häufig Schwierigkeit: Leicht

5. Wie behandeln Sie NULL-Werte in SQL?

Antwort: NULL stellt fehlende oder unbekannte Daten dar und erfordert eine spezielle Behandlung.

-- Auf NULL prüfen
SELECT * FROM employees
WHERE manager_id IS NULL;  -- Nicht: = NULL

-- COALESCE: Gibt den ersten Nicht-NULL-Wert zurück
SELECT 
    first_name,
    COALESCE(middle_name, '') AS middle_name,
    COALESCE(bonus, 0) AS bonus
FROM employees;

-- NULLIF: Gibt NULL zurück, wenn die Werte gleich sind
SELECT 
    product_name,
    NULLIF(discount, 0) AS discount  -- NULL, wenn der Rabatt 0 ist
FROM products;

-- NULL in Berechnungen (NULL wird weitergegeben)
SELECT 
    salary,
    bonus,
    salary + bonus AS total  -- NULL, wenn der Bonus NULL ist
FROM employees;

-- NULL in Aggregationen behandeln
SELECT 
    department,
    COUNT(*) AS total_employees,
    COUNT(manager_id) AS employees_with_manager,  -- Schließt NULL-Werte aus
    AVG(COALESCE(bonus, 0)) AS avg_bonus
FROM employees
GROUP BY department;

-- NULL in JOINs
SELECT e.first_name, d.department_name
FROM employees e
LEFT JOIN departments d ON e.department_id = d.department_id
WHERE d.department_id IS NULL;  -- Mitarbeiter ohne Abteilung

Seltenheit: Sehr häufig Schwierigkeit: Mittel

6. Was sind Subqueries und wann würden Sie sie im Vergleich zu JOINs verwenden?

Antwort: Subqueries sind Abfragen, die in einer anderen Abfrage verschachtelt sind.

Typen:
- Skalar: Gibt einen einzelnen Wert zurück
- Zeile: Gibt eine einzelne Zeile zurück
- Tabelle: Gibt mehrere Zeilen/Spalten zurück
Subqueries verwenden, wenn:
- Basierend auf aggregierten Daten gefiltert werden muss
- Existenzprüfung (EXISTS)
- Vergleich mit aggregierten Werten
JOINs verwenden, wenn:
- Spalten aus mehreren Tabellen benötigt werden
- Bessere Leistung (normalerweise)

-- Skalare Subquery
SELECT first_name, salary
FROM employees
WHERE salary > (SELECT AVG(salary) FROM employees);

-- Korrelierte Subquery (wird für jede Zeile ausgeführt)
SELECT e1.first_name, e1.salary
FROM employees e1
WHERE e1.salary > (
    SELECT AVG(e2.salary)
    FROM employees e2
    WHERE e2.department = e1.department
);

-- EXISTS (effizient zur Überprüfung der Existenz)
SELECT c.customer_name
FROM customers c
WHERE EXISTS (
    SELECT 1 FROM orders o
    WHERE o.customer_id = c.customer_id
    AND o.order_date > '2023-01-01'
);

-- IN mit Subquery
SELECT product_name
FROM products
WHERE product_id IN (
    SELECT DISTINCT product_id
    FROM sales
    WHERE sale_date > '2023-01-01'
);

-- JOIN-Alternative (oft schneller)
SELECT DISTINCT p.product_name
FROM products p
INNER JOIN sales s ON p.product_id = s.product_id
WHERE s.sale_date > '2023-01-01';

Seltenheit: Sehr häufig Schwierigkeit: Mittel

Statistische Analyse (4 Fragen)

7. Wie führen Sie eine Kohortenanalyse durch?

Antwort: Die Kohortenanalyse gruppiert Benutzer nach gemeinsamen Merkmalen und verfolgt das Verhalten im Zeitverlauf.

Gängige Anwendungsfälle:
- Kundenbindung
- Benutzerinteraktion
- Umsatztrends nach Akquisitionszeitraum

-- Kohortenanalyse: Monatliche Bindung
WITH user_cohorts AS (
    SELECT 
        user_id,
        DATE_TRUNC('month', first_purchase_date) AS cohort_month
    FROM users
),
user_activities AS (
    SELECT 
        user_id,
        DATE_TRUNC('month', activity_date) AS activity_month
    FROM activities
)
SELECT 
    uc.cohort_month,
    ua.activity_month,
    COUNT(DISTINCT ua.user_id) AS active_users,
    COUNT(DISTINCT ua.user_id) * 100.0 / 
        COUNT(DISTINCT uc.user_id) AS retention_rate
FROM user_cohorts uc
LEFT JOIN user_activities ua ON uc.user_id = ua.user_id
GROUP BY uc.cohort_month, ua.activity_month
ORDER BY uc.cohort_month, ua.activity_month;

-- Umsatzkohortenanalyse
SELECT 
    cohort_month,
    months_since_cohort,
    SUM(revenue) AS cohort_revenue,
    AVG(revenue) AS avg_revenue_per_user
FROM (
    SELECT 
        DATE_TRUNC('month', u.signup_date) AS cohort_month,
        EXTRACT(MONTH FROM AGE(o.order_date, u.signup_date)) AS months_since_cohort,
        o.revenue,
        u.user_id
    FROM users u
    JOIN orders o ON u.user_id = o.user_id
) cohort_data
GROUP BY cohort_month, months_since_cohort
ORDER BY cohort_month, months_since_cohort;

Seltenheit: Häufig Schwierigkeit: Schwer

8. Erläutern Sie die A/B-Testanalyse und die statistische Signifikanz.

Antwort: A/B-Tests vergleichen zwei Versionen, um festzustellen, welche besser abschneidet.

Schlüsselmetriken:
- Conversion-Rate
- Statistische Signifikanz (p-Wert < 0,05)
- Konfidenzintervall
- Stichprobengröße
Prozess:
1. Hypothese definieren
2. Stichprobengröße bestimmen
3. Test ausführen
4. Ergebnisse analysieren
5. Entscheidung treffen

-- A/B-Testergebnisanalyse
WITH test_results AS (
    SELECT 
        variant,
        COUNT(*) AS visitors,
        SUM(CASE WHEN converted = 1 THEN 1 ELSE 0 END) AS conversions,
        SUM(CASE WHEN converted = 1 THEN 1 ELSE 0 END) * 100.0 / COUNT(*) AS conversion_rate
    FROM ab_test_data
    GROUP BY variant
)
SELECT 
    variant,
    visitors,
    conversions,
    ROUND(conversion_rate, 2) AS conversion_rate_pct,
    -- Lift berechnen
    ROUND((conversion_rate - LAG(conversion_rate) OVER (ORDER BY variant)) / 
          LAG(conversion_rate) OVER (ORDER BY variant) * 100, 2) AS lift_pct
FROM test_results;

-- Berechnung der statistischen Signifikanz (Chi-Quadrat-Test)
-- Wird typischerweise in Python/R durchgeführt, aber Komponenten können in SQL berechnet werden
SELECT 
    variant,
    conversions,
    visitors - conversions AS non_conversions,
    visitors
FROM ab_test_data
GROUP BY variant;

Seltenheit: Häufig Schwierigkeit: Schwer

9. Wie berechnen und interpretieren Sie Perzentile?

Antwort: Perzentile teilen Daten in 100 gleiche Teile.

Gängige Perzentile:
- 25. (Q1), 50. (Median/Q2), 75. (Q3)
- 90., 95., 99. zur Ausreißererkennung
Anwendungsfälle:
- Gehalts-Benchmarking
- Leistungsmetriken
- SLA-Überwachung

-- Perzentile berechnen
SELECT 
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY salary) AS p25,
    PERCENTILE_CONT(0.50) WITHIN GROUP (ORDER BY salary) AS median,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY salary) AS p75,
    PERCENTILE_CONT(0.90) WITHIN GROUP (ORDER BY salary) AS p90,
    PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY salary) AS p95
FROM employees;

-- Perzentil nach Gruppe
SELECT 
    department,
    PERCENTILE_CONT(0.50) WITHIN GROUP (ORDER BY salary) AS median_salary,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY salary) AS p75_salary
FROM employees
GROUP BY department;

-- Jedem Zeile einen Perzentilrang zuweisen
SELECT 
    employee_id,
    salary,
    PERCENT_RANK() OVER (ORDER BY salary) AS percentile_rank,
    NTILE(4) OVER (ORDER BY salary) AS quartile
FROM employees;

-- Interquartilsabstand (IQR) zur Ausreißererkennung
WITH quartiles AS (
    SELECT 
        PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY salary) AS q1,
        PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY salary) AS q3
    FROM employees
)
SELECT 
    e.*,
    CASE 
        WHEN e.salary < q.q1 - 1.5 * (q.q3 - q.q1) THEN 'Low Outlier'
        WHEN e.salary > q.q3 + 1.5 * (q.q3 - q.q1) THEN 'High Outlier'
        ELSE 'Normal'
    END AS outlier_status
FROM employees e
CROSS JOIN quartiles q;

Seltenheit: Häufig Schwierigkeit: Mittel

10. Was ist Zeitreihenanalyse und wie gehen Sie mit Saisonalität um?

Antwort: Die Zeitreihenanalyse untersucht Datenpunkte, die im Zeitverlauf erfasst wurden, um Muster zu identifizieren.

Komponenten:
- Trend: Langfristige Richtung
- Saisonalität: Regelmäßige Muster (täglich, wöchentlich, jährlich)
- Zyklisch: Unregelmäßige Schwankungen
- Zufällig: Rauschen
Umgang mit Saisonalität:
- Gleitende Durchschnitte
- Vorjahresvergleich
- Saisonale Zerlegung
- Saisonale Bereinigung

-- Gleitender Durchschnitt (Saisonalität ausgleichen)
SELECT 
    date,
    sales,
    AVG(sales) OVER (
        ORDER BY date 
        ROWS BETWEEN 6 PRECEDING AND CURRENT ROW
    ) AS moving_avg_7day
FROM daily_sales;

-- Vorjahresvergleich
SELECT 
    EXTRACT(MONTH FROM sale_date) AS month,
    EXTRACT(YEAR FROM sale_date) AS year,
    SUM(amount) AS monthly_sales,
    LAG(SUM(amount), 12) OVER (ORDER BY sale_date) AS same_month_last_year,
    (SUM(amount) - LAG(SUM(amount), 12) OVER (ORDER BY sale_date)) / 
        LAG(SUM(amount), 12) OVER (ORDER BY sale_date) * 100 AS yoy_growth
FROM sales
GROUP BY EXTRACT(MONTH FROM sale_date), EXTRACT(YEAR FROM sale_date);

-- Berechnung des saisonalen Index
WITH monthly_avg AS (
    SELECT 
        EXTRACT(MONTH FROM date) AS month,
        AVG(sales) AS avg_sales
    FROM daily_sales
    GROUP BY EXTRACT(MONTH FROM date)
),
overall_avg AS (
    SELECT AVG(sales) AS overall_avg
    FROM daily_sales
)
SELECT 
    m.month,
    m.avg_sales,
    o.overall_avg,
    m.avg_sales / o.overall_avg AS seasonal_index
FROM monthly_avg m
CROSS JOIN overall_avg o
ORDER BY m.month;

Seltenheit: Mittel Schwierigkeit: Schwer

Datenmodellierung & ETL (4 Fragen)

11. Erklären Sie Star-Schema vs. Snowflake-Schema.

Antwort: Beide sind Designmuster für Data Warehouses.

Loading diagram...

Star-Schema:
- Faktentabelle, umgeben von denormalisierten Dimensionstabellen
- Einfache Abfragen (weniger Joins)
- Schnellere Abfrageleistung
- Mehr Speicher (redundante Daten)
Snowflake-Schema:
- Normalisierte Dimensionstabellen
- Weniger Speicher (keine Redundanz)
- Komplexere Abfragen (mehr Joins)
- Langsamere Abfrageleistung

Seltenheit: Häufig Schwierigkeit: Mittel

12. Was ist ETL und wie entwerfen Sie eine ETL-Pipeline?

Antwort: ETL (Extract, Transform, Load) verschiebt Daten von Quellen zum Ziel.

Extract: Daten aus Quellen abrufen (Datenbanken, APIs, Dateien)
Transform: Bereinigen, validieren, aggregieren, anreichern
Load: In Ziel einfügen (Data Warehouse, Datenbank)
Designüberlegungen:
- Inkrementelles vs. vollständiges Laden
- Fehlerbehandlung und Protokollierung
- Datenvalidierung
- Leistungsoptimierung
- Planung und Orchestrierung

-- Beispiel für inkrementelles Laden
-- Extract: Neue/aktualisierte Datensätze abrufen
CREATE TEMP TABLE staging_customers AS
SELECT *
FROM source_customers
WHERE updated_at > (
    SELECT MAX(last_updated) 
    FROM target_customers
);

-- Transform: Bereinigen und standardisieren
UPDATE staging_customers
SET 
    email = LOWER(TRIM(email)),
    phone = REGEXP_REPLACE(phone, '[^0-9]', '', 'g'),
    country = UPPER(country);

-- Load: Upsert in Ziel
INSERT INTO target_customers
SELECT * FROM staging_customers
ON CONFLICT (customer_id) 
DO UPDATE SET
    email = EXCLUDED.email,
    phone = EXCLUDED.phone,
    updated_at = EXCLUDED.updated_at;

-- ETL-Ausführung protokollieren
INSERT INTO etl_log (table_name, records_processed, run_date)
VALUES ('customers', (SELECT COUNT(*) FROM staging_customers), CURRENT_TIMESTAMP);

Seltenheit: Sehr häufig Schwierigkeit: Schwer

13. Wie stellen Sie die Datenqualität sicher?

Antwort: Datenqualität stellt sicher, dass Daten korrekt, vollständig und zuverlässig sind.

Dimensionen:
- Genauigkeit: Korrekte Werte
- Vollständigkeit: Keine fehlenden Daten
- Konsistenz: Gleich über Systeme hinweg
- Aktualität: Auf dem neuesten Stand
- Gültigkeit: Entspricht den Regeln
Techniken:
- Datenvalidierungsregeln
- Automatisierte Tests
- Datenprofilierung
- Anomalieerkennung
- Regelmäßige Audits

-- Datenqualitätsprüfungen
-- 1. Auf NULL-Werte in Pflichtfeldern prüfen
SELECT COUNT(*) AS null_emails
FROM customers
WHERE email IS NULL;

-- 2. Auf Duplikate prüfen
SELECT email, COUNT(*) AS duplicate_count
FROM customers
GROUP BY email
HAVING COUNT(*) > 1;

-- 3. Auf ungültige Formate prüfen
SELECT COUNT(*) AS invalid_emails
FROM customers
WHERE email NOT LIKE '%@%.%';

-- 4. Referenzielle Integrität prüfen
SELECT COUNT(*) AS orphaned_orders
FROM orders o
LEFT JOIN customers c ON o.customer_id = c.customer_id
WHERE c.customer_id IS NULL;

-- 5. Auf Ausreißer prüfen
SELECT COUNT(*) AS outlier_count
FROM orders
WHERE amount < 0 OR amount > 100000;

-- 6. Datenaktualität prüfen
SELECT 
    MAX(updated_at) AS last_update,
    EXTRACT(EPOCH FROM (CURRENT_TIMESTAMP - MAX(updated_at))) / 3600 AS hours_since_update
FROM customers;

-- Datenqualitäts-Dashboard erstellen
CREATE VIEW data_quality_metrics AS
SELECT 
    'customers' AS table_name,
    COUNT(*) AS total_records,
    SUM(CASE WHEN email IS NULL THEN 1 ELSE 0 END) AS null_emails,
    SUM(CASE WHEN email NOT LIKE '%@%.%' THEN 1 ELSE 0 END) AS invalid_emails,
    MAX(updated_at) AS last_updated
FROM customers;

Seltenheit: Sehr häufig Schwierigkeit: Mittel

14. Was ist Datennormalisierung und wann würden Sie denormalisieren?

Antwort:

Normalisierung: Organisieren von Daten, um Redundanz zu reduzieren
- 1NF, 2NF, 3NF, BCNF
- Vorteile: Datenintegrität, weniger Speicher
- Nachteil: Mehr Joins, langsamere Abfragen
Denormalisierung: Absichtliches Hinzufügen von Redundanz
- Vorteile: Schnellere Abfragen, einfacheres SQL
- Nachteile: Mehr Speicher, Update-Anomalien
- Verwenden für: Data Warehouses, Reporting, leseintensive Systeme

-- Normalisiert (3NF)
-- Orders Tabelle
CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    product_id INT,
    quantity INT
);

-- Benötigt Joins für Reporting
SELECT 
    c.customer_name,
    p.product_name,
    o.quantity
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
JOIN products p ON o.product_id = p.product_id;

-- Denormalisiert (für Reporting)
CREATE TABLE orders_denormalized (
    order_id INT PRIMARY KEY,
    customer_id INT,
    customer_name VARCHAR(100),  -- Denormalisiert
    customer_email VARCHAR(100),  -- Denormalisiert
    product_id INT,
    product_name VARCHAR(100),  -- Denormalisiert
    product_category VARCHAR(50),  -- Denormalisiert
    quantity INT,
    unit_price DECIMAL(10,2)  -- Denormalisiert
);

-- Einfachere, schnellere Abfrage
SELECT customer_name, product_name, quantity
FROM orders_denormalized;

Seltenheit: Häufig Schwierigkeit: Mittel

Dashboard & Visualisierung (3 Fragen)

15. Wie entwerfen Sie ein effektives Dashboard?

Antwort: Effektive Dashboards bieten auf einen Blick umsetzbare Erkenntnisse.

Prinzipien:
- Kennen Sie Ihre Zielgruppe: Führungskräfte vs. Analysten
- Konzentrieren Sie sich auf KPIs: Wichtigste Metriken zuerst
- Verwenden Sie geeignete Visualisierungen: Das richtige Diagramm für den Datentyp
- Konsistenz wahren: Farben, Schriftarten, Layout
- Interaktivität ermöglichen: Filter, Drilldowns
- Leistung optimieren: Daten voraggregieren
- Erzählen Sie eine Geschichte: Logischer Fluss
Layout:
- Oben: Schlüsselmetriken/KPIs
- Mitte: Trends und Vergleiche
- Unten: Details und Aufschlüsselungen

Seltenheit: Sehr häufig Schwierigkeit: Mittel

16. Wie optimieren Sie die Dashboard-Leistung?

Antwort: Langsame Dashboards frustrieren Benutzer und reduzieren die Akzeptanz.

Optimierungstechniken:
- Datenaggregation: Metriken vorab berechnen
- Materialisierte Views: Abfrageergebnisse speichern
- Inkrementelle Aktualisierung: Nur neue Daten aktualisieren
- Daten einschränken: Filter, Datumsbereiche verwenden
- Abfragen optimieren: Indizes, effizientes SQL
- Daten extrahieren: In eine schnellere Datenquelle verschieben
- Visualisierungen reduzieren: Weniger Diagramme pro Dashboard
- Extrakte verwenden: Tableau/Power BI-Extrakte

-- Materialisierte View für Dashboard erstellen
CREATE MATERIALIZED VIEW daily_sales_summary AS
SELECT 
    DATE_TRUNC('day', order_date) AS date,
    product_category,
    region,
    COUNT(*) AS order_count,
    SUM(amount) AS total_revenue,
    AVG(amount) AS avg_order_value
FROM orders
GROUP BY DATE_TRUNC('day', order_date), product_category, region;

-- Index für schnellere Filterung erstellen
CREATE INDEX idx_daily_sales_date ON daily_sales_summary(date);

-- Materialisierte View aktualisieren (geplanter Job)
REFRESH MATERIALIZED VIEW CONCURRENTLY daily_sales_summary;

-- Dashboard-Abfrage (schnell, verwendet voraggregierte Daten)
SELECT * FROM daily_sales_summary
WHERE date >= CURRENT_DATE - INTERVAL '30 days'
AND region = 'North America';

Seltenheit: Häufig Schwierigkeit: Mittel

17. Welche Metriken würden Sie für verschiedene Geschäftsfunktionen verfolgen?

Antwort: Verschiedene Abteilungen benötigen unterschiedliche Metriken.

Vertrieb:
- Umsatz, Conversion-Rate, durchschnittliche Deal-Größe
- Länge des Verkaufszyklus, Gewinnrate
- Kundenakquisitionskosten (CAC)
Marketing:
- ROI, Kosten pro Lead, Lead-Conversion-Rate
- Website-Traffic, Engagement-Rate
- Customer Lifetime Value (CLV)
Betrieb:
- Auftragsabwicklungszeit, Fehlerrate
- Lagerumschlag, Kapazitätsauslastung
- Pünktliche Lieferrate
Finanzen:
- Gewinnmarge, Cashflow, Burn-Rate
- Umsatzwachstum, EBITDA
- Alterung der Forderungen
Kundenerfolg:
- Kundenzufriedenheit (CSAT), Net Promoter Score (NPS)
- Churn-Rate, Retention-Rate
- Lösungszeit für Support-Tickets

Seltenheit: Häufig Schwierigkeit: Leicht

Geschäftsstrategie & Kommunikation (3 Fragen)

18. Wie priorisieren Sie Analyseprojekte?

Antwort: Die Priorisierung stellt die maximale Geschäftsauswirkung sicher.

Framework:
- Auswirkung: Potenzieller Geschäftswert
- Aufwand: Benötigte Zeit und Ressourcen
- Dringlichkeit: Zeitsensitivität
- Stakeholder-Abstimmung: Unterstützung durch die Führungsebene
Priorisierungsmatrix:
- Hohe Auswirkung, geringer Aufwand: Zuerst erledigen
- Hohe Auswirkung, hoher Aufwand: Sorgfältig planen
- Geringe Auswirkung, geringer Aufwand: Schnelle Erfolge
- Geringe Auswirkung, hoher Aufwand: Vermeiden
Zu stellende Fragen:
- Welches Geschäftsproblem wird dadurch gelöst?
- Was ist der erwartete ROI?
- Wer sind die Stakeholder?
- Welche Daten sind verfügbar?
- Welche Abhängigkeiten gibt es?

Seltenheit: Häufig Schwierigkeit: Mittel

19. Wie gehen Sie mit widersprüchlichen Anforderungen von Stakeholdern um?

Antwort: Das Management von Stakeholdern ist für Senior Analysten von entscheidender Bedeutung.

Ansatz:
- Bedürfnisse verstehen: Klärende Fragen stellen
- Gemeinsamkeiten finden: Gemeinsame Ziele
- Priorisieren: Basierend auf der Geschäftsauswirkung
- Tradeoffs kommunizieren: Einschränkungen erläutern
- Alternativen vorschlagen: Win-Win-Lösungen
- Bei Bedarf eskalieren: Zustimmung der Führungsebene einholen
- Entscheidungen dokumentieren: Klare Aufzeichnung
Beispiel:
- Marketing wünscht sich ein Echtzeit-Dashboard
- IT sagt, dass Echtzeit zu teuer ist
- Lösung: Nahezu Echtzeit (15-Minuten-Aktualisierung) gleicht Bedürfnisse und Kosten aus

Seltenheit: Häufig Schwierigkeit: Mittel

20. Wie messen Sie den Erfolg Ihrer Analysearbeit?

Antwort: Der Nachweis von Mehrwert ist für das berufliche Weiterkommen unerlässlich.

Metriken:
- Geschäftsauswirkung:
  - Umsatzsteigerung
  - Kostensenkung
  - Effizienzsteigerung
  - Bessere Entscheidungsfindung
- Akzeptanz:
  - Dashboard-Nutzung
  - Berichtsverteilung
  - Stakeholder-Feedback
- Qualität:
  - Datengenauigkeit
  - Aktualität
  - Umsetzbarkeit von Erkenntnissen
Dokumentation:
- Projekte und Ergebnisse verfolgen
- Auswirkungen wenn möglich quantifizieren
- Testimonials sammeln
- Fallstudien präsentieren

Seltenheit: Mittel Schwierigkeit: Mittel

Inhaltsverzeichnis

Leitfaden für Vorstellungsgespräche für Senior Data Analysten: Fragen und Antworten

Einführung

Fortgeschrittenes SQL (6 Fragen)

1. Erklären Sie Window-Funktionen und geben Sie Beispiele.

2. Wie optimieren Sie langsame SQL-Abfragen?

3. Was sind CTEs (Common Table Expressions) und wann würden Sie sie verwenden?

4. Erklären Sie den Unterschied zwischen UNION und UNION ALL.

5. Wie behandeln Sie NULL-Werte in SQL?

6. Was sind Subqueries und wann würden Sie sie im Vergleich zu JOINs verwenden?

Statistische Analyse (4 Fragen)

7. Wie führen Sie eine Kohortenanalyse durch?

8. Erläutern Sie die A/B-Testanalyse und die statistische Signifikanz.

9. Wie berechnen und interpretieren Sie Perzentile?

10. Was ist Zeitreihenanalyse und wie gehen Sie mit Saisonalität um?

Datenmodellierung & ETL (4 Fragen)

11. Erklären Sie Star-Schema vs. Snowflake-Schema.

12. Was ist ETL und wie entwerfen Sie eine ETL-Pipeline?

13. Wie stellen Sie die Datenqualität sicher?

14. Was ist Datennormalisierung und wann würden Sie denormalisieren?

Dashboard & Visualisierung (3 Fragen)

15. Wie entwerfen Sie ein effektives Dashboard?

16. Wie optimieren Sie die Dashboard-Leistung?

17. Welche Metriken würden Sie für verschiedene Geschäftsfunktionen verfolgen?

Geschäftsstrategie & Kommunikation (3 Fragen)

18. Wie priorisieren Sie Analyseprojekte?

19. Wie gehen Sie mit widersprüchlichen Anforderungen von Stakeholdern um?

20. Wie messen Sie den Erfolg Ihrer Analysearbeit?

Heben Sie sich bei Recruitern ab und Landen Sie Ihren Traumjob

Diesen Beitrag teilen

Wöchentliche Karrieretipps, die wirklich funktionieren

Wöchentliche Karrieretipps, die wirklich funktionieren

Verwandte Beiträge

Leitfaden für Vorstellungsgespräche für erfahrene Netzwerktechniker: Umfassende Fragen und Antworten

Leitfaden für Vorstellungsgespräche für erfahrene Systemadministratoren: Umfassende Fragen und Antworten

Leitfaden für Vorstellungsgespräche: Senior Backend-Entwickler (Python)

Heben Sie sich bei Recruitern ab und Landen Sie Ihren Traumjob

Diesen Beitrag teilen

Werden Sie 50% Schneller Eingestellt