Domande colloquio Junior Data Analyst

Domande da colloquio per Junior Data Analyst: cosa preparare

Un colloquio per Junior Data Analyst di solito verifica se sai pulire dati disordinati, scrivere SQL di base, riassumere dati in Excel, costruire una dashboard chiara e spiegare l’impatto sul business senza complicare la risposta. Prepara esempi brevi che mostrino come hai individuato un problema, controllato i dati, scelto la metrica corretta e spiegato il risultato.

Questa guida si concentra sulle domande pratiche più probabili per ruoli entry level: lookup e tabelle pivot in Excel, filtri e join SQL, dashboard Tableau o Power BI, statistica di base, KPI e comunicazione con gli stakeholder. Usa ogni risposta come base e aggiungi un esempio reale da un progetto, corso o stage.

Come usare questa guida

Scegli un progetto con dati prima del colloquio e collega le risposte a quel progetto. Chi conduce il colloquio vuole capire non solo che conosci una funzione o una query, ma anche quando la useresti, come controlleresti l’output e come spiegheresti l’insight a un team non tecnico.

Fondamenti di Excel (5 domande)

1. Quali sono le funzioni di Excel più importanti per l'analisi dei dati?

Risposta: Funzioni essenziali di Excel che ogni analista di dati dovrebbe conoscere:

CERCA.VERT/CERCA.X: Cerca valori nelle tabelle
SE/IFS: Logica condizionale
SOMMA.SE/SOMMA.PIÙ.SE: Somma condizionale
CONTA.SE/CONTA.PIÙ.SE: Conteggio condizionale
TABELLE PIVOT: Riassumere e analizzare i dati
INDICE/CONFRONTA: Più flessibile di CERCA.VERT
Funzioni TESTO: SINISTRA, DESTRA, STRINGA.ESTRAI, CONCATENA
Funzioni DATA: OGGI, DATA.DIFF, FINE.MESE

# Esempio di CERCA.VERT
=CERCA.VERT(A2; Prodotti!A:C; 3; FALSO)

# Esempio di SOMMA.PIÙ.SE (somma le vendite dove regione="Est" e prodotto="Widget")
=SOMMA.PIÙ.SE(Vendite!C:C; Vendite!A:A; "Est"; Vendite!B:B; "Widget")

# Esempio di INDICE/CONFRONTA (più flessibile di CERCA.VERT)
=INDICE(Prezzi!C:C; CONFRONTA(A2; Prezzi!A:A; 0))

# Formattazione condizionale con SE
=SE(B2>1000; "Alto"; SE(B2>500; "Medio"; "Basso"))

Rarità: Molto Comune Difficoltà: Facile

2. Spiega la differenza tra CERCA.VERT e INDICE/CONFRONTA.

Risposta:

CERCA.VERT:
- Sintassi più semplice
- Cerca solo a destra
- Meno flessibile
- Più lento per set di dati di grandi dimensioni
INDICE/CONFRONTA:
- Sintassi più complessa
- Può cercare a sinistra o a destra
- Più flessibile
- Prestazioni più veloci
- Può restituire intere righe/colonne

# CERCA.VERT - cerca il valore nella colonna A, restituisce dalla colonna C
=CERCA.VERT(A2; A:C; 3; FALSO)

# INDICE/CONFRONTA - equivalente ma più flessibile
=INDICE(C:C; CONFRONTA(A2; A:A; 0))

# Vantaggio di INDICE/CONFRONTA: può cercare a sinistra
=INDICE(A:A; CONFRONTA(C2; C:C; 0))  # CERCA.VERT non può farlo

Rarità: Molto Comune Difficoltà: Facile

3. Come si creano e si utilizzano le tabelle pivot?

Risposta: Le tabelle pivot riassumono rapidamente grandi set di dati.

Passaggi:
1. Seleziona l'intervallo di dati
2. Inserisci → Tabella pivot
3. Trascina i campi in Righe, Colonne, Valori
4. Applica filtri e formattazione
Casi d'uso: Riassumere le vendite per regione, analizzare le tendenze, creare report

# Struttura della tabella pivot:
Righe: Categoria di prodotto
Colonne: Trimestre
Valori: Somma delle vendite
Filtri: Regione

# Campi calcolati nelle tabelle pivot
Margine di profitto = (Ricavi - Costi) / Ricavi

# Raggruppamento delle date
Fai clic con il pulsante destro del mouse sulla data → Raggruppa → Seleziona Mesi/Trimestri/Anni

Rarità: Molto Comune Difficoltà: Facile

4. Cos'è la formattazione condizionale e quando la useresti?

Risposta: La formattazione condizionale applica la formattazione visiva in base ai valori delle celle.

Casi d'uso:
- Evidenzia i valori superiori/inferiori
- Mostra barre dei dati o scale di colori
- Identifica i duplicati
- Segnala i valori anomali
- Crea mappe di calore

# Evidenzia le celle maggiori di 1000
Seleziona l'intervallo → Formattazione condizionale → Regole evidenziazione celle → Maggiore di

# Scala di colori (gradiente)
Seleziona l'intervallo → Formattazione condizionale → Scale di colori

# Barre dei dati
Seleziona l'intervallo → Formattazione condizionale → Barre dei dati

# Formula personalizzata
=E($B2>1000; $C2="Attivo")

Rarità: Comune Difficoltà: Facile

5. Come si rimuovono i duplicati e si gestiscono i dati mancanti in Excel?

Risposta: La pulizia dei dati è essenziale per un'analisi accurata.

# Rimuovi i duplicati
Scheda Dati → Rimuovi duplicati → Seleziona le colonne

# Trova i duplicati con la formattazione condizionale
Seleziona l'intervallo → Formattazione condizionale → Regole evidenziazione celle → Valori duplicati

# Gestisci i dati mancanti
# Opzione 1: Filtra ed elimina
Filtra la colonna → Deseleziona (Vuoti) → Elimina le righe visibili

# Opzione 2: Riempi con la media
=SE(VAL.VUOTO(A2); MEDIA(A:A); A2)

# Opzione 3: Riempi in basso
Seleziona l'intervallo → Ctrl+D (Windows) o Cmd+D (Mac)

# Trova e sostituisci i vuoti
Ctrl+H → Trova: (lascia vuoto) → Sostituisci con: 0 o N/D

Rarità: Molto Comune Difficoltà: Facile

Basi di SQL (5 domande)

6. Scrivi una query SQL per selezionare tutte le colonne da una tabella.

Risposta: L'istruzione SELECT di base recupera i dati dalle tabelle.

-- Seleziona tutte le colonne
SELECT * FROM dipendenti;

-- Seleziona colonne specifiche
SELECT nome, cognome, stipendio
FROM dipendenti;

-- Seleziona con alias
SELECT 
    nome AS "Nome",
    cognome AS "Cognome",
    stipendio AS "Stipendio annuale"
FROM dipendenti;

-- Seleziona valori distinti
SELECT DISTINCT dipartimento
FROM dipendenti;

-- Limita i risultati
SELECT * FROM dipendenti
LIMIT 10;

Rarità: Molto Comune Difficoltà: Facile

7. Come si filtrano i dati utilizzando la clausola WHERE?

Risposta: La clausola WHERE filtra le righe in base alle condizioni.

-- Condizione semplice
SELECT * FROM dipendenti
WHERE stipendio > 50000;

-- Condizioni multiple con AND
SELECT * FROM dipendenti
WHERE dipartimento = 'Vendite' AND stipendio > 60000;

-- Condizioni multiple con OR
SELECT * FROM dipendenti
WHERE dipartimento = 'Vendite' OR dipartimento = 'Marketing';

-- Operatore IN
SELECT * FROM dipendenti
WHERE dipartimento IN ('Vendite', 'Marketing', 'IT');

-- Operatore BETWEEN
SELECT * FROM dipendenti
WHERE stipendio BETWEEN 50000 AND 80000;

-- Operatore LIKE (corrispondenza di modelli)
SELECT * FROM dipendenti
WHERE nome LIKE 'G%';  -- Inizia con G

-- IS NULL
SELECT * FROM dipendenti
WHERE id_responsabile IS NULL;

-- Operatore NOT
SELECT * FROM dipendenti
WHERE dipartimento NOT IN ('Risorse Umane', 'Finanza');

Rarità: Molto Comune Difficoltà: Facile

8. Spiega le operazioni JOIN e i loro tipi.

Risposta: Le JOIN combinano i dati da più tabelle.

INNER JOIN: Restituisce le righe corrispondenti da entrambe le tabelle
LEFT JOIN: Restituisce tutte le righe dalla tabella di sinistra, le corrispondenti da quella di destra
RIGHT JOIN: Restituisce tutte le righe dalla tabella di destra, le corrispondenti da quella di sinistra
FULL OUTER JOIN: Restituisce tutte le righe da entrambe le tabelle

-- INNER JOIN
SELECT d.nome, d.cognome, dpt.nome_dipartimento
FROM dipendenti d
INNER JOIN dipartimenti dpt ON d.id_dipartimento = dpt.id_dipartimento;

-- LEFT JOIN (tutti i dipendenti, anche senza dipartimento)
SELECT d.nome, d.cognome, dpt.nome_dipartimento
FROM dipendenti d
LEFT JOIN dipartimenti dpt ON d.id_dipartimento = dpt.id_dipartimento;

-- Join multipli
SELECT 
    d.nome,
    dpt.nome_dipartimento,
    l.città
FROM dipendenti d
INNER JOIN dipartimenti dpt ON d.id_dipartimento = dpt.id_dipartimento
INNER JOIN posizioni l ON dpt.id_posizione = l.id_posizione;

-- Self join (dipendenti e i loro responsabili)
SELECT 
    d.nome AS dipendente,
    r.nome AS responsabile
FROM dipendenti d
LEFT JOIN dipendenti r ON d.id_responsabile = r.id_dipendente;

Rarità: Molto Comune Difficoltà: Media

9. Come si utilizzano GROUP BY e le funzioni di aggregazione?

Risposta: GROUP BY raggruppa le righe e le funzioni di aggregazione riassumono i dati.

-- Conta i dipendenti per dipartimento
SELECT dipartimento, COUNT(*) AS numero_dipendenti
FROM dipendenti
GROUP BY dipartimento;

-- Stipendio medio per dipartimento
SELECT 
    dipartimento,
    AVG(stipendio) AS stipendio_medio,
    MIN(stipendio) AS stipendio_minimo,
    MAX(stipendio) AS stipendio_massimo
FROM dipendenti
GROUP BY dipartimento;

-- Clausola HAVING (filtra i gruppi)
SELECT dipartimento, AVG(stipendio) AS stipendio_medio
FROM dipendenti
GROUP BY dipartimento
HAVING AVG(stipendio) > 60000;

-- Colonne di raggruppamento multiple
SELECT 
    dipartimento,
    titolo_lavoro,
    COUNT(*) AS conteggio,
    AVG(stipendio) AS stipendio_medio
FROM dipendenti
GROUP BY dipartimento, titolo_lavoro
ORDER BY dipartimento, stipendio_medio DESC;

-- Funzioni di aggregazione comuni
-- COUNT, SUM, AVG, MIN, MAX, COUNT(DISTINCT)

Rarità: Molto Comune Difficoltà: Media

10. Qual è la differenza tra WHERE e HAVING?

Risposta:

WHERE: Filtra le righe prima del raggruppamento
HAVING: Filtra i gruppi dopo il raggruppamento
WHERE: Non può utilizzare funzioni di aggregazione
HAVING: Può utilizzare funzioni di aggregazione

-- WHERE - filtra prima del raggruppamento
SELECT dipartimento, AVG(stipendio) AS stipendio_medio
FROM dipendenti
WHERE stipendio > 40000  -- Filtra le singole righe
GROUP BY dipartimento;

-- HAVING - filtra dopo il raggruppamento
SELECT dipartimento, AVG(stipendio) AS stipendio_medio
FROM dipendenti
GROUP BY dipartimento
HAVING AVG(stipendio) > 60000;  -- Filtra i gruppi

-- Entrambi insieme
SELECT dipartimento, AVG(stipendio) AS stipendio_medio
FROM dipendenti
WHERE data_assunzione > '2020-01-01'  -- Filtra prima le righe
GROUP BY dipartimento
HAVING COUNT(*) > 5;  -- Quindi filtra i gruppi

-- Questo sarebbe SBAGLIATO:
-- SELECT dipartimento FROM dipendenti
-- WHERE COUNT(*) > 5;  -- Errore: non è possibile utilizzare l'aggregazione in WHERE

Rarità: Molto Comune Difficoltà: Facile

Visualizzazione dei dati (4 domande)

11. Quali sono i principi chiave di un'efficace visualizzazione dei dati?

Risposta: Una buona visualizzazione comunica le informazioni in modo chiaro.

Principi:
- Scegli il tipo di grafico giusto (a barre per il confronto, a linee per le tendenze, a torta per le parti di un intero)
- Mantienilo semplice (evita il disordine)
- Usa colori appropriati (coerenti, accessibili)
- Etichetta chiaramente (titoli, assi, legende)
- Racconta una storia (evidenzia le informazioni chiave)
- Considera il pubblico (tecnico vs non tecnico)

Loading diagram...

Rarità: Comune Difficoltà: Facile

12. Quando useresti un grafico a barre rispetto a un grafico a linee?

Risposta: Tipi di grafico diversi servono a scopi diversi:

Grafico a barre:
- Confronta le categorie
- Dati discreti
- Esempi: Vendite per regione, confronto prodotti
Grafico a linee:
- Mostra le tendenze nel tempo
- Dati continui
- Esempi: Entrate mensili, quotazioni di borsa
Altri grafici:
- Grafico a torta: Parti di un intero (usare con parsimonia)
- Grafico a dispersione: Relazione tra due variabili
- Istogramma: Distribuzione di dati continui

Rarità: Comune Difficoltà: Facile

13. Cos'è Tableau e quali sono le sue caratteristiche principali?

Risposta: Tableau è uno dei principali strumenti di visualizzazione dei dati e business intelligence.

Caratteristiche principali:
- Interfaccia drag-and-drop (nessuna codifica richiesta)
- Connessione a più origini dati (database, Excel, cloud)
- Dashboard interattive
- Aggiornamenti dei dati in tempo reale
- Campi calcolati e parametri
- Condivisione e collaborazione
Attività comuni:
- Crea fogli di lavoro (singole visualizzazioni)
- Costruisci dashboard (visualizzazioni multiple)
- Applica filtri e parametri
- Crea campi calcolati
- Pubblica su Tableau Server/Online

Rarità: Molto Comune Difficoltà: Facile

14. Qual è la differenza tra Tableau e Power BI?

Risposta: Entrambi gli strumenti servono per creare report e dashboard, ma al colloquio è utile spiegare come scegliere in base al team e all’ambiente dati.

Tableau: Forte per esplorazione visiva flessibile, dashboard, campi calcolati, parametri e viste interattive. È spesso adatto quando l’esigenza principale è l’analisi visuale su fonti dati diverse.
Power BI: Forte negli ambienti Microsoft, soprattutto con Excel, Fabric, Microsoft 365, Power Query, modelli semantici e DAX. È spesso adatto per report governati e dashboard aziendali ricorrenti.
Come rispondere: Non dire che uno strumento è sempre migliore. Confronta pubblico, stack esistente, complessità del modello dati, aggiornamenti, permessi e manutenzione.

Una buona risposta junior: “So creare dashboard di base con entrambi. Sceglierei Power BI se l’azienda lavora già molto con Microsoft, e Tableau se il team ha bisogno di esplorazione visiva più flessibile. In entrambi i casi partirei dalla domanda di business, pulirei i dati, definirei la metrica e validerei i totali prima della pubblicazione.”

Statistica e analisi (4 domande)

15. Quali misure di tendenza centrale conosci?

Risposta: Le misure di tendenza centrale descrivono il centro di un set di dati:

Media: Media aritmetica (somma / conteggio)
- Sensibile ai valori anomali
- Utilizzare per dati distribuiti normalmente
Mediana: Valore centrale quando ordinato
- Robusta ai valori anomali
- Utilizzare per dati asimmetrici
Moda: Valore più frequente
- Utilizzare per dati categorici

import numpy as np

data = [1, 2, 2, 3, 4, 5, 100]

mean = np.mean(data)  # 16.71 (influenzato dall'outlier 100)
median = np.median(data)  # 3 (non influenzato dall'outlier)
# mode = 2 (il più frequente)

print(f"Media: {mean}")
print(f"Mediana: {median}")

Rarità: Molto Comune Difficoltà: Facile

16. Come si identificano i valori anomali in un set di dati?

Risposta: I valori anomali sono punti dati che differiscono significativamente dalle altre osservazioni.

Metodi:
- Visivo: Box plot, grafici a dispersione
- Statistico:
  - Metodo IQR (1,5 × IQR oltre Q1/Q3)
  - Punteggio Z (|z| > 3)
  - Deviazione standard (oltre 2-3 deviazioni standard)

import numpy as np

data = np.array([10, 12, 13, 12, 11, 14, 13, 15, 100, 12])

# Metodo IQR
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = data[(data < lower_bound) | (data > upper_bound)]
print(f"Valori anomali: {outliers}")  # [100]

# Metodo del punteggio Z
mean = np.mean(data)
std = np.std(data)
z_scores = np.abs((data - mean) / std)
outliers_z = data[z_scores > 3]
print(f"Valori anomali (punteggio Z): {outliers_z}")

Rarità: Comune Difficoltà: Media

17. Qual è la differenza tra correlazione e causalità?

Risposta:

Correlazione: Relazione statistica tra variabili
- Misurata dal coefficiente di correlazione (-1 a 1)
- Non implica causalità
Causalità: Una variabile causa direttamente cambiamenti in un'altra
- Richiede esperimenti controllati
- La correlazione è necessaria ma non sufficiente

Esempi:

Le vendite di gelati e le morti per annegamento sono correlate (entrambe aumentano in estate)
Ma il gelato non causa l'annegamento (variabile confondente: temperatura)

-- Calcola la correlazione in SQL (semplificato)
SELECT 
    CORR(vendite, temperatura) AS correlazione
FROM dati_giornalieri;

-- Correlazione positiva: entrambi aumentano insieme
-- Correlazione negativa: uno aumenta, l'altro diminuisce
-- Correlazione zero: nessuna relazione

Rarità: Molto Comune Difficoltà: Facile

18. Come si calcola la variazione percentuale?

Risposta: La variazione percentuale misura la variazione relativa tra due valori.

# Formula
Variazione percentuale = ((Valore nuovo - Valore vecchio) / Valore vecchio) × 100

# Formula di Excel
=(B2-A2)/A2*100

# Esempio:
Valore vecchio: 100
Valore nuovo: 120
Variazione: (120-100)/100 = 0,20 = 20% di aumento

# Crescita anno su anno
=(Vendite_2023 - Vendite_2022) / Vendite_2022 * 100

-- Variazione percentuale SQL
SELECT 
    anno,
    ricavi,
    LAG(ricavi) OVER (ORDER BY anno) AS ricavi_anno_precedente,
    ((ricavi - LAG(ricavi) OVER (ORDER BY anno)) / 
     LAG(ricavi) OVER (ORDER BY anno) * 100) AS var_perc
FROM vendite_annuali;

Rarità: Molto Comune Difficoltà: Facile

Business Intelligence e reporting (2 domande)

19. Cos'è un KPI e come si scelgono quelli giusti?

Risposta: KPI (Key Performance Indicator) è un valore misurabile che mostra quanto efficacemente vengono raggiunti gli obiettivi.

Caratteristiche dei buoni KPI:
- Specifico: Chiaro e ben definito
- Misurabile: Quantificabile
- Raggiungibile: Realistico
- Rilevante: Allineato con gli obiettivi aziendali
- Vincolato al tempo: Ha un intervallo di tempo
Esempi:
- Vendite: Entrate mensili, tasso di conversione
- Marketing: Costo di acquisizione clienti, ROI
- Operazioni: Tempo di evasione degli ordini, tasso di errore
- Cliente: Punteggio di soddisfazione, tasso di fidelizzazione

Rarità: Comune Difficoltà: Facile

20. Come si presentano le informazioni sui dati alle parti interessate non tecniche?

Risposta: Una comunicazione efficace è fondamentale per gli analisti di dati.

Migliori pratiche:
- Inizia con la conclusione (ciò che devono sapere)
- Usa visualizzazioni semplici (evita grafici complessi)
- Racconta una storia (contesto, intuizione, raccomandazione)
- Evita il gergo (spiega i termini tecnici)
- Concentrati sull'impatto aziendale (entrate, costi, efficienza)
- Fornisci raccomandazioni attuabili
- Preparati alle domande
Struttura:
1. Riepilogo esecutivo
2. Risultati chiave
3. Dati/visualizzazioni di supporto
4. Raccomandazioni
5. Prossimi passi

Rarità: Comune Difficoltà: Media

Consigli di carriera recenti

Domande da colloquio per Junior Data Analyst: SQL, Excel e BI

Domande da colloquio per Junior Data Analyst: cosa preparare

Come usare questa guida

Fondamenti di Excel (5 domande)

1. Quali sono le funzioni di Excel più importanti per l'analisi dei dati?

2. Spiega la differenza tra CERCA.VERT e INDICE/CONFRONTA.

3. Come si creano e si utilizzano le tabelle pivot?

4. Cos'è la formattazione condizionale e quando la useresti?

5. Come si rimuovono i duplicati e si gestiscono i dati mancanti in Excel?

Basi di SQL (5 domande)

6. Scrivi una query SQL per selezionare tutte le colonne da una tabella.

7. Come si filtrano i dati utilizzando la clausola WHERE?

8. Spiega le operazioni JOIN e i loro tipi.

9. Come si utilizzano GROUP BY e le funzioni di aggregazione?

10. Qual è la differenza tra WHERE e HAVING?

Visualizzazione dei dati (4 domande)

11. Quali sono i principi chiave di un'efficace visualizzazione dei dati?

12. Quando useresti un grafico a barre rispetto a un grafico a linee?

13. Cos'è Tableau e quali sono le sue caratteristiche principali?

14. Qual è la differenza tra Tableau e Power BI?

Statistica e analisi (4 domande)

15. Quali misure di tendenza centrale conosci?

16. Come si identificano i valori anomali in un set di dati?

17. Qual è la differenza tra correlazione e causalità?

18. Come si calcola la variazione percentuale?

Business Intelligence e reporting (2 domande)

19. Cos'è un KPI e come si scelgono quelli giusti?

20. Come si presentano le informazioni sui dati alle parti interessate non tecniche?

Consigli di carriera settimanali che funzionano davvero

Consigli di carriera settimanali che funzionano davvero

Post Correlati

Domande di colloquio per Network Engineer junior

Domande da colloquio per Junior Data Scientist: Python, SQL, statistica e ML

Domande e risposte per colloquio da system administrator junior

Smetti di Candidarti. Inizia a Essere Assunto.

Condividi questo post

Fai Contare i Tuoi 6 Secondi