Questions d’entretien Data Analyst junior

Questions d’entretien Data Analyst junior : quoi préparer

Un entretien Data Analyst junior vérifie souvent si vous savez nettoyer des données imparfaites, écrire du SQL de base, synthétiser des données dans Excel, construire un dashboard clair et expliquer l’impact métier sans compliquer la réponse. Préparez des exemples courts montrant comment vous avez repéré un problème, vérifié les données, choisi le bon indicateur et expliqué le résultat.

Ce guide se concentre sur les questions pratiques les plus probables pour un poste débutant : recherches et tableaux croisés dynamiques dans Excel, filtres et jointures SQL, dashboards Tableau ou Power BI, statistiques de base, KPI et communication avec les parties prenantes. Utilisez chaque réponse comme base, puis ajoutez un exemple réel de projet, de cours ou de stage.

Comment utiliser ce guide

Choisissez un projet de données avant l’entretien et reliez vos réponses à ce projet. Les recruteurs veulent entendre non seulement que vous connaissez une fonction ou une requête, mais aussi quand l’utiliser, comment vérifier le résultat et comment expliquer l’insight à une équipe non technique.

Principes fondamentaux d'Excel (5 questions)

1. Quelles sont les fonctions Excel les plus importantes pour l'analyse de données ?

Réponse : Fonctions Excel essentielles que tout analyste de données doit connaître :

RECHERCHEV/RECHERCHEX : Rechercher des valeurs dans des tableaux
SI/SI.CONDITIONS : Logique conditionnelle
SOMME.SI/SOMME.SI.ENS : Sommation conditionnelle
NB.SI/NB.SI.ENS : Comptage conditionnel
TABLEAUX CROISÉS DYNAMIQUES : Résumer et analyser les données
INDEX/EQUIV : Plus flexible que RECHERCHEV
Fonctions TEXTE : GAUCHE, DROITE, STXT, CONCATENER
Fonctions DATE : AUJOURDHUI, DATEDIF, FIN.MOIS

# Exemple de RECHERCHEV
=RECHERCHEV(A2, Produits!A:C, 3, FAUX)

# Exemple de SOMME.SI.ENS (somme des ventes où région="Est" et produit="Widget")
=SOMME.SI.ENS(Ventes!C:C, Ventes!A:A, "Est", Ventes!B:B, "Widget")

# Exemple d'INDEX/EQUIV (plus flexible que RECHERCHEV)
=INDEX(Prix!C:C, EQUIV(A2, Prix!A:A, 0))

# Mise en forme conditionnelle avec SI
=SI(B2>1000, "Élevé", SI(B2>500, "Moyen", "Faible"))

Rareté : Très courant Difficulté : Facile

2. Expliquez la différence entre RECHERCHEV et INDEX/EQUIV.

Réponse :

RECHERCHEV :
- Syntaxe plus simple
- Ne regarde que vers la droite
- Moins flexible
- Plus lent pour les grands ensembles de données
INDEX/EQUIV :
- Syntaxe plus complexe
- Peut regarder à gauche ou à droite
- Plus flexible
- Performances plus rapides
- Peut renvoyer des lignes/colonnes entières

# RECHERCHEV - rechercher une valeur dans la colonne A, renvoyer depuis la colonne C
=RECHERCHEV(A2, A:C, 3, FAUX)

# INDEX/EQUIV - équivalent mais plus flexible
=INDEX(C:C, EQUIV(A2, A:A, 0))

# Avantage d'INDEX/EQUIV : peut regarder à gauche
=INDEX(A:A, EQUIV(C2, C:C, 0))  # RECHERCHEV ne peut pas faire cela

Rareté : Très courant Difficulté : Facile

3. Comment créez-vous et utilisez-vous des tableaux croisés dynamiques ?

Réponse : Les tableaux croisés dynamiques résument rapidement les grands ensembles de données.

Étapes :
1. Sélectionnez la plage de données
2. Insertion → Tableau croisé dynamique
3. Faites glisser les champs vers Lignes, Colonnes, Valeurs
4. Appliquez des filtres et une mise en forme
Cas d'utilisation : Résumer les ventes par région, analyser les tendances, créer des rapports

# Structure du tableau croisé dynamique :
Lignes : Catégorie de produit
Colonnes : Trimestre
Valeurs : Somme des ventes
Filtres : Région

# Champs calculés dans les tableaux croisés dynamiques
Marge bénéficiaire = (Revenu - Coût) / Revenu

# Grouper les dates
Cliquez avec le bouton droit sur la date → Grouper → Sélectionnez Mois/Trimestres/Années

Rareté : Très courant Difficulté : Facile

4. Qu'est-ce que la mise en forme conditionnelle et quand l'utiliseriez-vous ?

Réponse : La mise en forme conditionnelle applique une mise en forme visuelle en fonction des valeurs des cellules.

Cas d'utilisation :
- Mettre en évidence les valeurs les plus hautes/basses
- Afficher des barres de données ou des échelles de couleurs
- Identifier les doublons
- Signaler les valeurs aberrantes
- Créer des cartes thermiques

# Mettre en évidence les cellules supérieures à 1000
Sélectionnez la plage → Mise en forme conditionnelle → Règles de mise en surbrillance des cellules → Supérieur à

# Échelle de couleurs (dégradé)
Sélectionnez la plage → Mise en forme conditionnelle → Échelles de couleurs

# Barres de données
Sélectionnez la plage → Mise en forme conditionnelle → Barres de données

# Formule personnalisée
=ET($B2>1000, $C2="Actif")

Rareté : Courant Difficulté : Facile

5. Comment supprimez-vous les doublons et gérez-vous les données manquantes dans Excel ?

Réponse : Le nettoyage des données est essentiel pour une analyse précise.

# Supprimer les doublons
Onglet Données → Supprimer les doublons → Sélectionnez les colonnes

# Trouver les doublons avec la mise en forme conditionnelle
Sélectionnez la plage → Mise en forme conditionnelle → Règles de mise en surbrillance des cellules → Valeurs en double

# Gérer les données manquantes
# Option 1 : Filtrer et supprimer
Filtrer la colonne → Décochez (Vides) → Supprimer les lignes visibles

# Option 2 : Remplir avec la moyenne
=SI(ESTVIDE(A2), MOYENNE(A:A), A2)

# Option 3 : Remplir vers le bas
Sélectionnez la plage → Ctrl+D (Windows) ou Cmd+D (Mac)

# Rechercher et remplacer les vides
Ctrl+H → Rechercher : (laisser vide) → Remplacer par : 0 ou N/A

Rareté : Très courant Difficulté : Facile

Bases de SQL (5 questions)

6. Écrivez une requête SQL pour sélectionner toutes les colonnes d'une table.

Réponse : L'instruction SELECT de base récupère les données des tables.

-- Sélectionner toutes les colonnes
SELECT * FROM employés;

-- Sélectionner des colonnes spécifiques
SELECT prénom, nom, salaire
FROM employés;

-- Sélectionner avec un alias
SELECT 
    prénom AS "Prénom",
    nom AS "Nom",
    salaire AS "Salaire annuel"
FROM employés;

-- Sélectionner les valeurs distinctes
SELECT DISTINCT département
FROM employés;

-- Limiter les résultats
SELECT * FROM employés
LIMIT 10;

Rareté : Très courant Difficulté : Facile

7. Comment filtrez-vous les données à l'aide de la clause WHERE ?

Réponse : La clause WHERE filtre les lignes en fonction de conditions.

-- Condition simple
SELECT * FROM employés
WHERE salaire > 50000;

-- Conditions multiples avec AND
SELECT * FROM employés
WHERE département = 'Ventes' AND salaire > 60000;

-- Conditions multiples avec OR
SELECT * FROM employés
WHERE département = 'Ventes' OR département = 'Marketing';

-- Opérateur IN
SELECT * FROM employés
WHERE département IN ('Ventes', 'Marketing', 'IT');

-- Opérateur BETWEEN
SELECT * FROM employés
WHERE salaire BETWEEN 50000 AND 80000;

-- Opérateur LIKE (correspondance de motifs)
SELECT * FROM employés
WHERE prénom LIKE 'J%';  -- Commence par J

-- IS NULL
SELECT * FROM employés
WHERE id_manager IS NULL;

-- Opérateur NOT
SELECT * FROM employés
WHERE département NOT IN ('RH', 'Finance');

Rareté : Très courant Difficulté : Facile

8. Expliquez les opérations JOIN et leurs types.

Réponse : Les JOIN combinent les données de plusieurs tables.

INNER JOIN : Renvoie les lignes correspondantes des deux tables
LEFT JOIN : Renvoie toutes les lignes de la table de gauche, les correspondances de la droite
RIGHT JOIN : Renvoie toutes les lignes de la table de droite, les correspondances de la gauche
FULL OUTER JOIN : Renvoie toutes les lignes des deux tables

-- INNER JOIN
SELECT e.prénom, e.nom, d.nom_département
FROM employés e
INNER JOIN départements d ON e.id_département = d.id_département;

-- LEFT JOIN (tous les employés, même sans département)
SELECT e.prénom, e.nom, d.nom_département
FROM employés e
LEFT JOIN départements d ON e.id_département = d.id_département;

-- Joins multiples
SELECT 
    e.prénom,
    d.nom_département,
    l.ville
FROM employés e
INNER JOIN départements d ON e.id_département = d.id_département
INNER JOIN localisations l ON d.id_localisation = l.id_localisation;

-- Jointure réflexive (employés et leurs managers)
SELECT 
    e.prénom AS employé,
    m.prénom AS manager
FROM employés e
LEFT JOIN employés m ON e.id_manager = m.id_employé;

Rareté : Très courant Difficulté : Moyenne

9. Comment utilisez-vous GROUP BY et les fonctions d'agrégation ?

Réponse : GROUP BY regroupe les lignes et les fonctions d'agrégation résument les données.

-- Compter les employés par département
SELECT département, COUNT(*) AS nombre_employés
FROM employés
GROUP BY département;

-- Salaire moyen par département
SELECT 
    département,
    AVG(salaire) AS salaire_moyen,
    MIN(salaire) AS salaire_minimum,
    MAX(salaire) AS salaire_maximum
FROM employés
GROUP BY département;

-- Clause HAVING (filtrer les groupes)
SELECT département, AVG(salaire) AS salaire_moyen
FROM employés
GROUP BY département
HAVING AVG(salaire) > 60000;

-- Colonnes de regroupement multiples
SELECT 
    département,
    titre_emploi,
    COUNT(*) AS nombre,
    AVG(salaire) AS salaire_moyen
FROM employés
GROUP BY département, titre_emploi
ORDER BY département, salaire_moyen DESC;

-- Fonctions d'agrégation courantes
-- COUNT, SUM, AVG, MIN, MAX, COUNT(DISTINCT)

Rareté : Très courant Difficulté : Moyenne

10. Quelle est la différence entre WHERE et HAVING ?

Réponse :

WHERE : Filtre les lignes avant le regroupement
HAVING : Filtre les groupes après le regroupement
WHERE : Ne peut pas utiliser de fonctions d'agrégation
HAVING : Peut utiliser des fonctions d'agrégation

-- WHERE - filtrer avant le regroupement
SELECT département, AVG(salaire) AS salaire_moyen
FROM employés
WHERE salaire > 40000  -- Filtrer les lignes individuelles
GROUP BY département;

-- HAVING - filtrer après le regroupement
SELECT département, AVG(salaire) AS salaire_moyen
FROM employés
GROUP BY département
HAVING AVG(salaire) > 60000;  -- Filtrer les groupes

-- Les deux ensemble
SELECT département, AVG(salaire) AS salaire_moyen
FROM employés
WHERE date_embauche > '2020-01-01'  -- Filtrer les lignes d'abord
GROUP BY département
HAVING COUNT(*) > 5;  -- Puis filtrer les groupes

-- Ce serait FAUX :
-- SELECT département FROM employés
-- WHERE COUNT(*) > 5;  -- Erreur : impossible d'utiliser une agrégation dans WHERE

Rareté : Très courant Difficulté : Facile

Visualisation des données (4 questions)

11. Quels sont les principes clés d'une visualisation de données efficace ?

Réponse : De bonnes visualisations communiquent clairement les informations.

Principes :
- Choisissez le bon type de graphique (barres pour la comparaison, ligne pour les tendances, camembert pour les parties d'un tout)
- Restez simple (évitez l'encombrement)
- Utilisez des couleurs appropriées (cohérentes, accessibles)
- Étiquetez clairement (titres, axes, légendes)
- Racontez une histoire (mettez en évidence les informations clés)
- Tenez compte du public (technique vs non technique)

Loading diagram...

Rareté : Courant Difficulté : Facile

12. Quand utiliseriez-vous un graphique à barres plutôt qu'un graphique linéaire ?

Réponse : Différents types de graphiques servent des objectifs différents :

Graphique à barres :
- Comparer les catégories
- Données discrètes
- Exemples : Ventes par région, comparaison de produits
Graphique linéaire :
- Afficher les tendances au fil du temps
- Données continues
- Exemples : Revenus mensuels, cours des actions
Autres graphiques :
- Graphique circulaire : Parties d'un tout (à utiliser avec parcimonie)
- Nuage de points : Relation entre deux variables
- Histogramme : Distribution de données continues

Rareté : Courant Difficulté : Facile

13. Qu'est-ce que Tableau et quelles sont ses principales fonctionnalités ?

Réponse : Tableau est un outil de visualisation de données et de business intelligence de premier plan.

Principales fonctionnalités :
- Interface glisser-déposer (aucune programmation requise)
- Se connecter à plusieurs sources de données (bases de données, Excel, cloud)
- Tableaux de bord interactifs
- Mises à jour des données en temps réel
- Champs calculés et paramètres
- Partage et collaboration
Tâches courantes :
- Créer des feuilles de calcul (visualisations individuelles)
- Créer des tableaux de bord (visualisations multiples)
- Appliquer des filtres et des paramètres
- Créer des champs calculés
- Publier sur Tableau Server/Online

Rareté : Très courant Difficulté : Facile

14. Quelle est la différence entre Tableau et Power BI ?

Réponse : Les deux outils permettent de créer des rapports et des dashboards, mais en entretien il faut montrer que vous choisissez selon l’équipe et l’environnement de données.

Tableau : Fort pour l’exploration visuelle flexible, les dashboards, les champs calculés, les paramètres et les vues interactives. Il convient souvent quand le besoin principal est l’analyse visuelle sur des sources variées.
Power BI : Fort dans les environnements Microsoft, surtout avec Excel, Fabric, Microsoft 365, Power Query, les modèles sémantiques et DAX. Il convient souvent au reporting gouverné et aux dashboards métier récurrents.
Comment répondre : Ne dites pas qu’un outil est toujours meilleur. Comparez l’audience, l’écosystème existant, la complexité du modèle, les rafraîchissements, les droits d’accès et la maintenance.

Une bonne réponse junior : « Je peux créer des dashboards simples avec les deux outils. Je choisirais Power BI si l’entreprise travaille déjà beaucoup avec Microsoft, et Tableau si l’équipe a besoin d’une exploration visuelle plus flexible. Dans les deux cas, je commence par la question métier, je nettoie les données, je définis l’indicateur et je valide les totaux avant publication. »

Statistiques et analyse (4 questions)

15. Quelles mesures de tendance centrale connaissez-vous ?

Réponse : Les mesures de tendance centrale décrivent le centre d'un ensemble de données :

Moyenne : Moyenne (somme / nombre)
- Sensible aux valeurs aberrantes
- À utiliser pour les données normalement distribuées
Médiane : Valeur médiane une fois triée
- Robuste aux valeurs aberrantes
- À utiliser pour les données asymétriques
Mode : Valeur la plus fréquente
- À utiliser pour les données catégorielles

import numpy as np

data = [1, 2, 2, 3, 4, 5, 100]

mean = np.mean(data)  # 16.71 (affectée par la valeur aberrante 100)
median = np.median(data)  # 3 (non affectée par la valeur aberrante)
# mode = 2 (le plus fréquent)

print(f"Moyenne: {mean}")
print(f"Médiane: {median}")

Rareté : Très courant Difficulté : Facile

16. Comment identifiez-vous les valeurs aberrantes dans un ensemble de données ?

Réponse : Les valeurs aberrantes sont des points de données qui diffèrent considérablement des autres observations.

Méthodes :
- Visuel : Boîtes à moustaches, nuages de points
- Statistique :
  - Méthode IQR (1,5 × IQR au-delà de Q1/Q3)
  - Score Z (|z| > 3)
  - Écart type (au-delà de 2 à 3 écarts types)

import numpy as np

data = np.array([10, 12, 13, 12, 11, 14, 13, 15, 100, 12])

# Méthode IQR
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = data[(data < lower_bound) | (data > upper_bound)]
print(f"Valeurs aberrantes: {outliers}")  # [100]

# Méthode du score Z
mean = np.mean(data)
std = np.std(data)
z_scores = np.abs((data - mean) / std)
outliers_z = data[z_scores > 3]
print(f"Valeurs aberrantes (Score Z): {outliers_z}")

Rareté : Courant Difficulté : Moyenne

17. Quelle est la différence entre corrélation et causalité ?

Réponse :

Corrélation : Relation statistique entre les variables
- Mesurée par le coefficient de corrélation (-1 à 1)
- N'implique pas la causalité
Causalité : Une variable provoque directement des changements dans une autre
- Nécessite des expériences contrôlées
- La corrélation est nécessaire mais pas suffisante

Exemples :

Les ventes de glaces et les décès par noyade sont corrélés (les deux augmentent en été)
Mais la glace ne cause pas la noyade (variable confondante : température)

-- Calculer la corrélation en SQL (simplifié)
SELECT 
    CORR(ventes, température) AS corrélation
FROM données_journalières;

-- Corrélation positive : les deux augmentent ensemble
-- Corrélation négative : l'un augmente, l'autre diminue
-- Corrélation nulle : aucune relation

Rareté : Très courant Difficulté : Facile

18. Comment calculez-vous le pourcentage de variation ?

Réponse : Le pourcentage de variation mesure le changement relatif entre deux valeurs.

# Formule
Pourcentage de variation = ((Nouvelle valeur - Ancienne valeur) / Ancienne valeur) × 100

# Formule Excel
=(B2-A2)/A2*100

# Exemple :
Ancienne valeur : 100
Nouvelle valeur : 120
Variation : (120-100)/100 = 0,20 = augmentation de 20 %

# Croissance d'une année sur l'autre
=(Ventes_2023 - Ventes_2022) / Ventes_2022 * 100

-- Pourcentage de variation SQL
SELECT 
    année,
    revenu,
    LAG(revenu) OVER (ORDER BY année) AS revenu_année_précédente,
    ((revenu - LAG(revenu) OVER (ORDER BY année)) / 
     LAG(revenu) OVER (ORDER BY année) * 100) AS pct_variation
FROM ventes_annuelles;

Rareté : Très courant Difficulté : Facile

Business Intelligence et reporting (2 questions)

19. Qu'est-ce qu'un KPI et comment choisissez-vous les bons ?

Réponse : Un KPI (Key Performance Indicator ou Indicateur clé de performance) est une valeur mesurable qui montre avec quelle efficacité les objectifs sont atteints.

Caractéristiques des bons KPI :
- Spécifique : Clair et bien défini
- Mesurable : Quantifiable
- Réalisable : Réaliste
- Pertinent : Aligné sur les objectifs commerciaux
- Limité dans le temps : A un calendrier
Exemples :
- Ventes : Revenus mensuels, taux de conversion
- Marketing : Coût d'acquisition client, ROI
- Opérations : Délai d'exécution des commandes, taux d'erreur
- Client : Score de satisfaction, taux de rétention

Rareté : Courant Difficulté : Facile

20. Comment présentez-vous les informations sur les données aux parties prenantes non techniques ?

Réponse : Une communication efficace est essentielle pour les analystes de données.

Meilleures pratiques :
- Commencez par la conclusion (ce qu'ils doivent savoir)
- Utilisez des visualisations simples (évitez les graphiques complexes)
- Racontez une histoire (contexte, information, recommandation)
- Évitez le jargon (expliquez les termes techniques)
- Concentrez-vous sur l'impact commercial (revenus, coûts, efficacité)
- Fournissez des recommandations concrètes
- Soyez prêt à répondre aux questions
Structure :
1. Résumé
2. Principales conclusions
3. Données/visualisations à l'appui
4. Recommandations
5. Prochaines étapes

Rareté : Courant Difficulté : Moyenne

Conseils carrière récents

Questions d’entretien Data Analyst junior : SQL, Excel et BI

Questions d’entretien Data Analyst junior : quoi préparer

Comment utiliser ce guide

Principes fondamentaux d'Excel (5 questions)

1. Quelles sont les fonctions Excel les plus importantes pour l'analyse de données ?

2. Expliquez la différence entre RECHERCHEV et INDEX/EQUIV.

3. Comment créez-vous et utilisez-vous des tableaux croisés dynamiques ?

4. Qu'est-ce que la mise en forme conditionnelle et quand l'utiliseriez-vous ?

5. Comment supprimez-vous les doublons et gérez-vous les données manquantes dans Excel ?

Bases de SQL (5 questions)

6. Écrivez une requête SQL pour sélectionner toutes les colonnes d'une table.

7. Comment filtrez-vous les données à l'aide de la clause WHERE ?

8. Expliquez les opérations JOIN et leurs types.

9. Comment utilisez-vous GROUP BY et les fonctions d'agrégation ?

10. Quelle est la différence entre WHERE et HAVING ?

Visualisation des données (4 questions)

11. Quels sont les principes clés d'une visualisation de données efficace ?

12. Quand utiliseriez-vous un graphique à barres plutôt qu'un graphique linéaire ?

13. Qu'est-ce que Tableau et quelles sont ses principales fonctionnalités ?

14. Quelle est la différence entre Tableau et Power BI ?

Statistiques et analyse (4 questions)

15. Quelles mesures de tendance centrale connaissez-vous ?

16. Comment identifiez-vous les valeurs aberrantes dans un ensemble de données ?

17. Quelle est la différence entre corrélation et causalité ?

18. Comment calculez-vous le pourcentage de variation ?

Business Intelligence et reporting (2 questions)

19. Qu'est-ce qu'un KPI et comment choisissez-vous les bons ?

20. Comment présentez-vous les informations sur les données aux parties prenantes non techniques ?

Conseils de carrière hebdomadaires qui fonctionnent vraiment

Conseils de carrière hebdomadaires qui fonctionnent vraiment

Articles Connexes

Questions d'entretien ingénieur sécurité junior

Questions d'entretien backend junior Python

Questions d’entretien Data Scientist Junior : Python, SQL, stats et ML

Arrêtez de Postuler. Commencez à Être Embauché.

Partager cet article

Réduisez Votre Temps de Rédaction de CV de 90%