Preguntas de entrevista para analista de datos junior

Preguntas de entrevista para analista de datos junior: qué preparar

Una entrevista para analista de datos junior suele comprobar si puedes limpiar datos desordenados, escribir SQL básico, resumir datos en Excel, crear un dashboard claro y explicar el impacto de negocio sin complicar la respuesta. Prepara ejemplos breves que muestren cómo detectaste un problema, validaste los datos, elegiste la métrica correcta y explicaste el resultado.

Esta guía se centra en las preguntas prácticas más probables para roles de entrada: búsquedas y tablas dinámicas en Excel, filtros y joins en SQL, dashboards en Tableau o Power BI, estadística básica, KPI y comunicación con stakeholders. Usa cada respuesta como base y añade un ejemplo real de proyecto, curso o práctica.

Cómo usar esta guía

Elige un proyecto con datos antes de la entrevista y conecta tus respuestas con él. Quieren oír no solo que conoces una función o consulta, sino cuándo la usarías, cómo comprobarías el resultado y cómo explicarías el hallazgo a un equipo no técnico.

Fundamentos de Excel (5 preguntas)

1. ¿Cuáles son las funciones de Excel más importantes para el análisis de datos?

Respuesta: Funciones esenciales de Excel que todo analista de datos debe conocer:

VLOOKUP/XLOOKUP (BUSCARV/BUSCARX): Buscar valores en tablas
IF/IFS (SI/SI.CONJUNTO): Lógica condicional
SUMIF/SUMIFS (SUMAR.SI/SUMAR.SI.CONJUNTO): Suma condicional
COUNTIF/COUNTIFS (CONTAR.SI/CONTAR.SI.CONJUNTO): Conteo condicional
PIVOT TABLES (TABLAS DINÁMICAS): Resumir y analizar datos
INDEX/MATCH (INDICE/COINCIDIR): Más flexible que BUSCARV
Funciones de TEXTO: LEFT (IZQUIERDA), RIGHT (DERECHA), MID (EXTRAE), CONCATENATE (CONCATENAR)
Funciones de FECHA: TODAY (HOY), DATEDIF (SIFECHA), EOMONTH (FIN.MES)

# Ejemplo de BUSCARV
=BUSCARV(A2, Productos!A:C, 3, FALSO)

# Ejemplo de SUMAR.SI.CONJUNTO (suma las ventas donde la región="Este" y el producto="Widget")
=SUMAR.SI.CONJUNTO(Ventas!C:C, Ventas!A:A, "Este", Ventas!B:B, "Widget")

# Ejemplo de INDICE/COINCIDIR (más flexible que BUSCARV)
=INDICE(Precios!C:C, COINCIDIR(A2, Precios!A:A, 0))

# Formato condicional con SI
=SI(B2>1000, "Alto", SI(B2>500, "Medio", "Bajo"))

Frecuencia: Muy común Dificultad: Fácil

2. Explique la diferencia entre BUSCARV e INDICE/COINCIDIR.

Respuesta:

BUSCARV:
- Sintaxis más sencilla
- Sólo busca a la derecha
- Menos flexible
- Más lento para grandes conjuntos de datos
INDICE/COINCIDIR:
- Sintaxis más compleja
- Puede buscar a la izquierda o a la derecha
- Más flexible
- Mayor rendimiento
- Puede devolver filas/columnas enteras

# BUSCARV - busca el valor en la columna A, devuelve desde la columna C
=BUSCARV(A2, A:C, 3, FALSO)

# INDICE/COINCIDIR - equivalente pero más flexible
=INDICE(C:C, COINCIDIR(A2, A:A, 0))

# Ventaja de INDICE/COINCIDIR: puede buscar a la izquierda
=INDICE(A:A, COINCIDIR(C2, C:C, 0))  # BUSCARV no puede hacer esto

Frecuencia: Muy común Dificultad: Fácil

3. ¿Cómo se crean y utilizan las Tablas Dinámicas?

Respuesta: Las Tablas Dinámicas resumen grandes conjuntos de datos rápidamente.

Pasos:
1. Seleccionar el rango de datos
2. Insertar → Tabla Dinámica
3. Arrastrar los campos a Filas, Columnas, Valores
4. Aplicar filtros y formato
Casos de uso: Resumir las ventas por región, analizar las tendencias, crear informes

# Estructura de la Tabla Dinámica:
Filas: Categoría de Producto
Columnas: Trimestre
Valores: Suma de Ventas
Filtros: Región

# Campos calculados en las Tablas Dinámicas
Margen de Beneficio = (Ingresos - Coste) / Ingresos

# Agrupación de fechas
Haga clic con el botón derecho en la fecha → Agrupar → Seleccione Meses/Trimestres/Años

Frecuencia: Muy común Dificultad: Fácil

4. ¿Qué es el formato condicional y cuándo lo usaría?

Respuesta: El formato condicional aplica formato visual basado en los valores de las celdas.

Casos de uso:
- Resaltar los valores superiores/inferiores
- Mostrar barras de datos o escalas de color
- Identificar duplicados
- Señalar los valores atípicos
- Crear mapas de calor

# Resaltar las celdas mayores de 1000
Seleccione el rango → Formato Condicional → Reglas para Resaltar Celdas → Mayor Que

# Escala de color (gradiente)
Seleccione el rango → Formato Condicional → Escalas de Color

# Barras de datos
Seleccione el rango → Formato Condicional → Barras de Datos

# Fórmula personalizada
=Y($B2>1000, $C2="Activo")

Frecuencia: Común Dificultad: Fácil

5. ¿Cómo se eliminan los duplicados y se gestionan los datos que faltan en Excel?

Respuesta: La limpieza de datos es esencial para un análisis preciso.

# Eliminar duplicados
Pestaña Datos → Eliminar Duplicados → Seleccionar columnas

# Encontrar duplicados con formato condicional
Seleccione el rango → Formato Condicional → Reglas para Resaltar Celdas → Valores Duplicados

# Gestionar los datos que faltan
# Opción 1: Filtrar y eliminar
Filtrar la columna → Desmarcar (Vacías) → Eliminar las filas visibles

# Opción 2: Rellenar con el promedio
=SI(ESBLANCO(A2), PROMEDIO(A:A), A2)

# Opción 3: Rellenar hacia abajo
Seleccione el rango → Ctrl+D (Windows) o Cmd+D (Mac)

# Encontrar y reemplazar los espacios en blanco
Ctrl+H → Buscar: (dejar en blanco) → Reemplazar con: 0 o N/A

Frecuencia: Muy común Dificultad: Fácil

Fundamentos de SQL (5 preguntas)

6. Escriba una consulta SQL para seleccionar todas las columnas de una tabla.

Respuesta: La instrucción SELECT básica recupera datos de las tablas.

-- Seleccionar todas las columnas
SELECT * FROM empleados;

-- Seleccionar columnas específicas
SELECT nombre, apellido, salario
FROM empleados;

-- Seleccionar con alias
SELECT 
    nombre AS "Nombre",
    apellido AS "Apellido",
    salario AS "Salario Anual"
FROM empleados;

-- Seleccionar valores distintos
SELECT DISTINCT departamento
FROM empleados;

-- Limitar los resultados
SELECT * FROM empleados
LIMIT 10;

Frecuencia: Muy común Dificultad: Fácil

7. ¿Cómo se filtran los datos utilizando la cláusula WHERE?

Respuesta: La cláusula WHERE filtra las filas basándose en las condiciones.

-- Condición simple
SELECT * FROM empleados
WHERE salario > 50000;

-- Múltiples condiciones con AND
SELECT * FROM empleados
WHERE departamento = 'Ventas' AND salario > 60000;

-- Múltiples condiciones con OR
SELECT * FROM empleados
WHERE departamento = 'Ventas' OR departamento = 'Marketing';

-- Operador IN
SELECT * FROM empleados
WHERE departamento IN ('Ventas', 'Marketing', 'IT');

-- Operador BETWEEN
SELECT * FROM empleados
WHERE salario BETWEEN 50000 AND 80000;

-- Operador LIKE (coincidencia de patrones)
SELECT * FROM empleados
WHERE nombre LIKE 'J%';  -- Comienza con J

-- IS NULL
SELECT * FROM empleados
WHERE id_gerente IS NULL;

-- Operador NOT
SELECT * FROM empleados
WHERE departamento NOT IN ('RRHH', 'Finanzas');

Frecuencia: Muy común Dificultad: Fácil

8. Explique las operaciones JOIN y sus tipos.

Respuesta: Los JOIN combinan datos de varias tablas.

INNER JOIN: Devuelve las filas coincidentes de ambas tablas
LEFT JOIN: Devuelve todas las filas de la tabla izquierda, las coincidentes de la derecha
RIGHT JOIN: Devuelve todas las filas de la tabla derecha, las coincidentes de la izquierda
FULL OUTER JOIN: Devuelve todas las filas de ambas tablas

-- INNER JOIN
SELECT e.nombre, e.apellido, d.nombre_departamento
FROM empleados e
INNER JOIN departamentos d ON e.id_departamento = d.id_departamento;

-- LEFT JOIN (todos los empleados, incluso sin departamento)
SELECT e.nombre, e.apellido, d.nombre_departamento
FROM empleados e
LEFT JOIN departamentos d ON e.id_departamento = d.id_departamento;

-- Múltiples joins
SELECT 
    e.nombre,
    d.nombre_departamento,
    l.ciudad
FROM empleados e
INNER JOIN departamentos d ON e.id_departamento = d.id_departamento
INNER JOIN ubicaciones l ON d.id_ubicacion = l.id_ubicacion;

-- Self join (empleados y sus gerentes)
SELECT 
    e.nombre AS empleado,
    m.nombre AS gerente
FROM empleados e
LEFT JOIN empleados m ON e.id_gerente = m.id_empleado;

Frecuencia: Muy común Dificultad: Media

9. ¿Cómo se utilizan las funciones GROUP BY y aggregate?

Respuesta: GROUP BY agrupa las filas y las funciones aggregate resumen los datos.

-- Contar los empleados por departamento
SELECT departamento, COUNT(*) AS conteo_empleados
FROM empleados
GROUP BY departamento;

-- Salario promedio por departamento
SELECT 
    departamento,
    AVG(salario) AS salario_promedio,
    MIN(salario) AS salario_minimo,
    MAX(salario) AS salario_maximo
FROM empleados
GROUP BY departamento;

-- Cláusula HAVING (filtrar grupos)
SELECT departamento, AVG(salario) AS salario_promedio
FROM empleados
GROUP BY departamento
HAVING AVG(salario) > 60000;

-- Múltiples columnas de agrupación
SELECT 
    departamento,
    titulo_trabajo,
    COUNT(*) AS conteo,
    AVG(salario) AS salario_promedio
FROM empleados
GROUP BY departamento, titulo_trabajo
ORDER BY departamento, salario_promedio DESC;

-- Funciones aggregate comunes
-- COUNT, SUM, AVG, MIN, MAX, COUNT(DISTINCT)

Frecuencia: Muy común Dificultad: Media

10. ¿Cuál es la diferencia entre WHERE y HAVING?

Respuesta:

WHERE: Filtra las filas antes de agrupar
HAVING: Filtra los grupos después de agrupar
WHERE: No puede utilizar funciones aggregate
HAVING: Puede utilizar funciones aggregate

-- WHERE - filtrar antes de agrupar
SELECT departamento, AVG(salario) AS salario_promedio
FROM empleados
WHERE salario > 40000  -- Filtrar filas individuales
GROUP BY departamento;

-- HAVING - filtrar después de agrupar
SELECT departamento, AVG(salario) AS salario_promedio
FROM empleados
GROUP BY departamento
HAVING AVG(salario) > 60000;  -- Filtrar grupos

-- Ambos juntos
SELECT departamento, AVG(salario) AS salario_promedio
FROM empleados
WHERE fecha_contratacion > '2020-01-01'  -- Filtrar las filas primero
GROUP BY departamento
HAVING COUNT(*) > 5;  -- Luego filtrar los grupos

-- Esto estaría MAL:
-- SELECT departamento FROM empleados
-- WHERE COUNT(*) > 5;  -- Error: no se puede utilizar aggregate en WHERE

Frecuencia: Muy común Dificultad: Fácil

Visualización de datos (4 preguntas)

11. ¿Cuáles son los principios clave de la visualización eficaz de datos?

Respuesta: Las buenas visualizaciones comunican las ideas con claridad.

Principios:
- Elegir el tipo de gráfico adecuado (barras para la comparación, líneas para las tendencias, tarta para las partes del todo)
- Mantener la sencillez (evitar el desorden)
- Utilizar colores apropiados (coherentes, accesibles)
- Etiquetar claramente (títulos, ejes, leyendas)
- Contar una historia (destacar las ideas clave)
- Considerar el público (técnico frente a no técnico)

Loading diagram...

Frecuencia: Común Dificultad: Fácil

12. ¿Cuándo usaría un gráfico de barras frente a un gráfico de líneas?

Respuesta: Los diferentes tipos de gráficos tienen diferentes propósitos:

Gráfico de Barras:
- Comparar categorías
- Datos discretos
- Ejemplos: Ventas por región, comparación de productos
Gráfico de Líneas:
- Mostrar las tendencias a lo largo del tiempo
- Datos continuos
- Ejemplos: Ingresos mensuales, precios de las acciones
Otros Gráficos:
- Gráfico Circular: Partes de un todo (utilizar con moderación)
- Gráfico de Dispersión: Relación entre dos variables
- Histograma: Distribución de datos continuos

Frecuencia: Común Dificultad: Fácil

13. ¿Qué es Tableau y cuáles son sus principales características?

Respuesta: Tableau es una herramienta líder de visualización de datos e inteligencia empresarial.

Características principales:
- Interfaz de arrastrar y soltar (no requiere codificación)
- Conectar a múltiples fuentes de datos (bases de datos, Excel, nube)
- Paneles interactivos
- Actualizaciones de datos en tiempo real
- Campos calculados y parámetros
- Compartir y colaborar
Tareas comunes:
- Crear hojas de trabajo (visualizaciones individuales)
- Construir paneles (múltiples visualizaciones)
- Aplicar filtros y parámetros
- Crear campos calculados
- Publicar en Tableau Server/Online

Frecuencia: Muy común Dificultad: Fácil

14. ¿Cuál es la diferencia entre Tableau y Power BI?

Respuesta: Ambas herramientas sirven para crear informes y dashboards, pero en una entrevista conviene explicar cómo elegir según el equipo y el entorno de datos.

Tableau: Fuerte para exploración visual flexible, dashboards, campos calculados, parámetros y vistas interactivas. Suele encajar cuando la necesidad principal es explorar visualmente datos de varias fuentes.
Power BI: Fuerte en entornos Microsoft, especialmente con Excel, Fabric, Microsoft 365, Power Query, modelos semánticos y DAX. Suele encajar para reporting gobernado y dashboards de negocio recurrentes.
Cómo responder: No digas que una herramienta siempre es mejor. Compara audiencia, stack existente, complejidad del modelo, actualización, permisos y mantenimiento.

Una buena respuesta junior: “Puedo crear dashboards básicos en ambas herramientas. Elegiría Power BI si la empresa ya trabaja mucho con Microsoft, y Tableau si el equipo necesita exploración visual más flexible. En ambos casos empezaría por la pregunta de negocio, limpiaría los datos, definiría la métrica y validaría los totales antes de publicar.”

Estadística y Análisis (4 preguntas)

15. ¿Qué medidas de tendencia central conoce?

Respuesta: Las medidas de tendencia central describen el centro de un conjunto de datos:

Media: Promedio (suma / conteo)
- Sensible a los valores atípicos
- Utilizar para datos distribuidos normalmente
Mediana: Valor medio cuando se ordena
- Robusta a los valores atípicos
- Utilizar para datos sesgados
Moda: Valor más frecuente
- Utilizar para datos categóricos

import numpy as np

data = [1, 2, 2, 3, 4, 5, 100]

mean = np.mean(data)  # 16.71 (afectado por el valor atípico 100)
median = np.median(data)  # 3 (no afectado por el valor atípico)
# mode = 2 (el más frecuente)

print(f"Media: {mean}")
print(f"Mediana: {median}")

Frecuencia: Muy común Dificultad: Fácil

16. ¿Cómo se identifican los valores atípicos en un conjunto de datos?

Respuesta: Los valores atípicos son puntos de datos que difieren significativamente de otras observaciones.

Métodos:
- Visual: Diagramas de caja, diagramas de dispersión
- Estadístico:
  - Método IQR (1,5 × IQR más allá de Q1/Q3)
  - Puntuación Z (|z| > 3)
  - Desviación estándar (más allá de 2-3 desviaciones estándar)

import numpy as np

data = np.array([10, 12, 13, 12, 11, 14, 13, 15, 100, 12])

# Método IQR
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = data[(data < lower_bound) | (data > upper_bound)]
print(f"Valores atípicos: {outliers}")  # [100]

# Método de la puntuación Z
mean = np.mean(data)
std = np.std(data)
z_scores = np.abs((data - mean) / std)
outliers_z = data[z_scores > 3]
print(f"Valores atípicos (puntuación Z): {outliers_z}")

Frecuencia: Común Dificultad: Media

17. ¿Cuál es la diferencia entre correlación y causalidad?

Respuesta:

Correlación: Relación estadística entre variables
- Medida por el coeficiente de correlación (-1 a 1)
- No implica causalidad
Causalidad: Una variable causa directamente cambios en otra
- Requiere experimentos controlados
- La correlación es necesaria pero no suficiente

Ejemplos:

Las ventas de helados y las muertes por ahogamiento están correlacionadas (ambas aumentan en verano)
Pero el helado no causa el ahogamiento (variable de confusión: temperatura)

-- Calcular la correlación en SQL (simplificado)
SELECT 
    CORR(ventas, temperatura) AS correlacion
FROM datos_diarios;

-- Correlación positiva: ambos aumentan juntos
-- Correlación negativa: uno aumenta, el otro disminuye
-- Correlación cero: no hay relación

Frecuencia: Muy común Dificultad: Fácil

18. ¿Cómo se calcula el cambio porcentual?

Respuesta: El cambio porcentual mide el cambio relativo entre dos valores.

# Fórmula
Cambio Porcentual = ((Valor Nuevo - Valor Antiguo) / Valor Antiguo) × 100

# Fórmula de Excel
=(B2-A2)/A2*100

# Ejemplo:
Valor Antiguo: 100
Valor Nuevo: 120
Cambio: (120-100)/100 = 0.20 = 20% de aumento

# Crecimiento interanual
=(Ventas_2023 - Ventas_2022) / Ventas_2022 * 100

-- Cambio porcentual SQL
SELECT 
    año,
    ingresos,
    LAG(ingresos) OVER (ORDER BY año) AS ingresos_año_anterior,
    ((ingresos - LAG(ingresos) OVER (ORDER BY año)) / 
     LAG(ingresos) OVER (ORDER BY año) * 100) AS cambio_pct
FROM ventas_anuales;

Frecuencia: Muy común Dificultad: Fácil

Inteligencia empresarial e informes (2 preguntas)

19. ¿Qué es un KPI y cómo se eligen los correctos?

Respuesta: KPI (Key Performance Indicator, Indicador Clave de Rendimiento) es un valor medible que muestra la eficacia con la que se están alcanzando los objetivos.

Características de los buenos KPI:
- Específico: Claro y bien definido
- Medible: Cuantificable
- Alcanzable: Realista
- Relevante: Alineado con los objetivos empresariales
- Con plazos: Tiene un plazo de tiempo
Ejemplos:
- Ventas: Ingresos mensuales, tasa de conversión
- Marketing: Coste de adquisición de clientes, ROI
- Operaciones: Tiempo de cumplimiento de los pedidos, tasa de error
- Cliente: Puntuación de satisfacción, tasa de retención

Frecuencia: Común Dificultad: Fácil

20. ¿Cómo presenta la información sobre los datos a las partes interesadas no técnicas?

Respuesta: La comunicación eficaz es crucial para los analistas de datos.

Mejores prácticas:
- Empiece por la conclusión (lo que necesitan saber)
- Utilice visualizaciones sencillas (evite los gráficos complejos)
- Cuente una historia (contexto, información, recomendación)
- Evite la jerga (explique los términos técnicos)
- Céntrese en el impacto empresarial (ingresos, costes, eficiencia)
- Proporcione recomendaciones prácticas
- Esté preparado para las preguntas
Estructura:
1. Resumen ejecutivo
2. Conclusiones clave
3. Datos/visualizaciones de apoyo
4. Recomendaciones
5. Próximos pasos

Frecuencia: Común Dificultad: Media

Consejos de carrera recientes

Preguntas de entrevista para analista de datos junior: SQL, Excel y BI

Preguntas de entrevista para analista de datos junior: qué preparar

Cómo usar esta guía

Fundamentos de Excel (5 preguntas)

1. ¿Cuáles son las funciones de Excel más importantes para el análisis de datos?

2. Explique la diferencia entre BUSCARV e INDICE/COINCIDIR.

3. ¿Cómo se crean y utilizan las Tablas Dinámicas?

4. ¿Qué es el formato condicional y cuándo lo usaría?

5. ¿Cómo se eliminan los duplicados y se gestionan los datos que faltan en Excel?

Fundamentos de SQL (5 preguntas)

6. Escriba una consulta SQL para seleccionar todas las columnas de una tabla.

7. ¿Cómo se filtran los datos utilizando la cláusula WHERE?

8. Explique las operaciones JOIN y sus tipos.

9. ¿Cómo se utilizan las funciones GROUP BY y aggregate?

10. ¿Cuál es la diferencia entre WHERE y HAVING?

Visualización de datos (4 preguntas)

11. ¿Cuáles son los principios clave de la visualización eficaz de datos?

12. ¿Cuándo usaría un gráfico de barras frente a un gráfico de líneas?

13. ¿Qué es Tableau y cuáles son sus principales características?

14. ¿Cuál es la diferencia entre Tableau y Power BI?

Estadística y Análisis (4 preguntas)

15. ¿Qué medidas de tendencia central conoce?

16. ¿Cómo se identifican los valores atípicos en un conjunto de datos?

17. ¿Cuál es la diferencia entre correlación y causalidad?

18. ¿Cómo se calcula el cambio porcentual?

Inteligencia empresarial e informes (2 preguntas)

19. ¿Qué es un KPI y cómo se eligen los correctos?

20. ¿Cómo presenta la información sobre los datos a las partes interesadas no técnicas?

Consejos de carrera semanales que realmente funcionan

Consejos de carrera semanales que realmente funcionan

Publicaciones Relacionadas

Preguntas y respuestas para administrador de sistemas junior

Preguntas de entrevista para Data Scientist Junior: Python, SQL, estadística y ML

Preguntas de Entrevista para Ingeniero de Seguridad Junior

Deja de Postularte. Comienza a Ser Contratado.

Compartir esta publicación

Haz que tus 6 Segundos Cuenten