Preguntas para Entrevistas de Analista de Datos Senior: Guía Completa

Milad Bonakdar
Autor
Domina el análisis de datos avanzado con preguntas esenciales para entrevistas que abarcan SQL avanzado, análisis estadístico, modelado de datos, procesos ETL, diseño de dashboards y gestión de stakeholders para analistas de datos senior.
Introducción
Se espera que los analistas de datos senior lideren proyectos analíticos complejos, diseñen soluciones de datos robustas, optimicen los procesos de negocio y comuniquen ideas que impulsen las decisiones estratégicas. Este rol exige experiencia en SQL avanzado, análisis estadístico, modelado de datos, procesos ETL y gestión de stakeholders.
Esta guía completa cubre las preguntas esenciales de la entrevista para los Analistas de Datos Senior, que abarcan técnicas avanzadas de SQL, análisis estadístico, modelado de datos, procesos ETL, optimización de dashboards y estrategia de negocio. Cada pregunta incluye respuestas detalladas, evaluación de rareza y niveles de dificultad.
SQL Avanzado (6 Preguntas)
1. Explica las funciones de ventana y da ejemplos.
Respuesta: Las funciones de ventana realizan cálculos en un conjunto de filas relacionadas con la fila actual sin colapsar el resultado.
- Funciones de Ventana Comunes:
- ROW_NUMBER(): Número secuencial único
- RANK(): Rango con huecos para empates
- DENSE_RANK(): Rango sin huecos
- LAG/LEAD(): Accede a la fila anterior/siguiente
- SUM/AVG/COUNT() OVER(): Totales/promedios acumulativos
Rareza: Muy Común Dificultad: Difícil
2. ¿Cómo optimizas las consultas SQL lentas?
Respuesta: La optimización de consultas mejora el rendimiento y reduce el uso de recursos.
- Técnicas:
- Indexación: Crea índices en las columnas consultadas con frecuencia
- *Evita SELECT : Selecciona solo las columnas necesarias
- Usa WHERE de manera eficiente: Filtra temprano
- Optimiza JOINs: Une en columnas indexadas
- Evita subconsultas: Usa JOINs o CTEs en su lugar
- Usa EXPLAIN: Analiza el plan de ejecución de la consulta
- Particiona tablas: Para tablas muy grandes
- Agrega de manera eficiente: Usa GROUP BY apropiadamente
Rareza: Muy Común Dificultad: Difícil
3. ¿Qué son los CTEs (Common Table Expressions) y cuándo los usarías?
Respuesta: Los CTEs crean conjuntos de resultados nombrados temporales que existen solo durante la ejecución de la consulta.
- Beneficios:
- Mejora la legibilidad
- Permite la recursión
- Reutilización en la misma consulta
- Mejor que las subconsultas para la lógica compleja
Rareza: Común Dificultad: Media
4. Explica la diferencia entre UNION y UNION ALL.
Respuesta: Ambos combinan los resultados de múltiples sentencias SELECT.
- UNION:
- Elimina las filas duplicadas
- Más lento (requiere clasificación/comparación)
- Úsalo cuando se deban eliminar los duplicados
- UNION ALL:
- Mantiene todas las filas, incluidos los duplicados
- Más rápido (sin deduplicación)
- Úsalo cuando los duplicados son aceptables o imposibles
Rareza: Común Dificultad: Fácil
5. ¿Cómo manejas los valores NULL en SQL?
Respuesta: NULL representa datos faltantes o desconocidos y requiere un manejo especial.
Rareza: Muy Común Dificultad: Media
6. ¿Qué son las subconsultas y cuándo las usarías frente a los JOINs?
Respuesta: Las subconsultas son consultas anidadas dentro de otra consulta.
- Tipos:
- Escalar: Devuelve un solo valor
- Fila: Devuelve una sola fila
- Tabla: Devuelve múltiples filas/columnas
- Usa Subconsultas cuando:
- Necesitas filtrar en base a datos agregados
- Comprobar la existencia (EXISTS)
- Comparar con valores agregados
- Usa JOINs cuando:
- Necesitas columnas de múltiples tablas
- Mejor rendimiento (generalmente)
Rareza: Muy Común Dificultad: Media
Análisis Estadístico (4 Preguntas)
7. ¿Cómo realizas el análisis de cohortes?
Respuesta: El análisis de cohortes agrupa a los usuarios por características compartidas y rastrea el comportamiento a lo largo del tiempo.
- Casos de Uso Comunes:
- Retención de clientes
- Compromiso del usuario
- Tendencias de ingresos por período de adquisición
Rareza: Común Dificultad: Difícil
8. Explica el análisis de pruebas A/B y la significación estadística.
Respuesta: Las pruebas A/B comparan dos versiones para determinar cuál funciona mejor.
- Métricas Clave:
- Tasa de conversión
- Significación estadística (valor p < 0.05)
- Intervalo de confianza
- Tamaño de la muestra
- Proceso:
- Define la hipótesis
- Determina el tamaño de la muestra
- Ejecuta la prueba
- Analiza los resultados
- Toma una decisión
Rareza: Común Dificultad: Difícil
9. ¿Cómo calculas e interpretas los percentiles?
Respuesta: Los percentiles dividen los datos en 100 partes iguales.
- Percentiles Comunes:
- 25º (Q1), 50º (Mediana/Q2), 75º (Q3)
- 90º, 95º, 99º para la detección de valores atípicos
- Casos de Uso:
- Evaluación comparativa de salarios
- Métricas de rendimiento
- Monitorización de SLA
Rareza: Común Dificultad: Media
10. ¿Qué es el análisis de series temporales y cómo manejas la estacionalidad?
Respuesta: El análisis de series temporales examina los puntos de datos recopilados a lo largo del tiempo para identificar patrones.
- Componentes:
- Tendencia: Dirección a largo plazo
- Estacionalidad: Patrones regulares (diarios, semanales, anuales)
- Cíclico: Fluctuaciones irregulares
- Aleatorio: Ruido
- Manejo de la Estacionalidad:
- Promedios móviles
- Comparación interanual
- Descomposición estacional
- Ajuste estacional
Rareza: Media Dificultad: Difícil
Modelado de Datos y ETL (4 Preguntas)
11. Explica el esquema de estrella frente al esquema de copo de nieve.
Respuesta: Ambos son patrones de diseño de almacenes de datos.
- Esquema de Estrella:
- Tabla de hechos rodeada de tablas de dimensiones desnormalizadas
- Consultas simples (menos joins)
- Rendimiento de la consulta más rápido
- Más almacenamiento (datos redundantes)
- Esquema de Copo de Nieve:
- Tablas de dimensiones normalizadas
- Menos almacenamiento (sin redundancia)
- Consultas más complejas (más joins)
- Rendimiento de la consulta más lento
Rareza: Común Dificultad: Media
12. ¿Qué es ETL y cómo diseñas un pipeline de ETL?
Respuesta: ETL (Extract, Transform, Load) mueve datos desde las fuentes al destino.
- Extract: Extrae datos de las fuentes (bases de datos, APIs, archivos)
- Transform: Limpia, valida, agrega, enriquece
- Load: Inserta en el destino (almacén de datos, base de datos)
- Consideraciones de Diseño:
- Carga Incremental vs Carga Completa
- Manejo de errores y registro
- Validación de datos
- Optimización del rendimiento
- Programación y orquestación
Rareza: Muy Común Dificultad: Difícil
13. ¿Cómo aseguras la calidad de los datos?
Respuesta: La calidad de los datos asegura que los datos sean precisos, completos y fiables.
- Dimensiones:
- Precisión: Valores correctos
- Integridad: Sin datos faltantes
- Consistencia: Igual en todos los sistemas
- Oportunidad: Actualizado
- Validez: Se ajusta a las reglas
- Técnicas:
- Reglas de validación de datos
- Pruebas automatizadas
- Perfilado de datos
- Detección de anomalías
- Auditorías periódicas
Rareza: Muy Común Dificultad: Media
14. ¿Qué es la normalización de datos y cuándo desnormalizarías?
Respuesta:
- Normalización: Organizar los datos para reducir la redundancia
- 1NF, 2NF, 3NF, BCNF
- Beneficios: Integridad de los datos, menos almacenamiento
- Inconveniente: Más joins, consultas más lentas
- Desnormalización: Añadir intencionalmente redundancia
- Beneficios: Consultas más rápidas, SQL más simple
- Inconvenientes: Más almacenamiento, anomalías de actualización
- Usar para: Almacenes de datos, informes, sistemas de lectura intensiva
Rareza: Común Dificultad: Media
Dashboard & Visualización (3 Preguntas)
15. ¿Cómo diseñas un dashboard eficaz?
Respuesta: Los dashboards eficaces proporcionan información útil de un vistazo.
- Principios:
- Conoce a tu audiencia: Ejecutivos vs analistas
- Céntrate en los KPIs: Las métricas más importantes primero
- Usa visualizaciones apropiadas: El gráfico correcto para el tipo de datos
- Mantén la consistencia: Colores, fuentes, diseño
- Permite la interactividad: Filtros, drill-downs
- Optimiza el rendimiento: Pre-agrega los datos
- Cuenta una historia: Flujo lógico
- Diseño:
- Superior: Métricas clave/KPIs
- Medio: Tendencias y comparaciones
- Inferior: Detalles y desgloses
Rareza: Muy Común Dificultad: Media
16. ¿Cómo optimizas el rendimiento del dashboard?
Respuesta: Los dashboards lentos frustran a los usuarios y reducen la adopción.
- Técnicas de Optimización:
- Agregación de datos: Pre-calcula las métricas
- Vistas materializadas: Almacena los resultados de la consulta
- Refresco incremental: Actualiza solo los datos nuevos
- Limita los datos: Usa filtros, rangos de fechas
- Optimiza las consultas: Índices, SQL eficiente
- Extrae los datos: Mueve a una fuente de datos más rápida
- Reduce las visualizaciones: Menos gráficos por dashboard
- Usa extractos: Extractos de Tableau/Power BI
Rareza: Común Dificultad: Media
17. ¿Qué métricas rastrearías para las diferentes funciones de negocio?
Respuesta: Los diferentes departamentos necesitan diferentes métricas.
- Ventas:
- Ingresos, tasa de conversión, tamaño medio de la operación
- Duración del ciclo de ventas, tasa de éxito
- Coste de adquisición de clientes (CAC)
- Marketing:
- ROI, coste por lead, tasa de conversión de leads
- Tráfico del sitio web, tasa de engagement
- Valor de vida del cliente (CLV)
- Operaciones:
- Tiempo de cumplimiento de los pedidos, tasa de error
- Rotación de inventario, utilización de la capacidad
- Tasa de entrega a tiempo
- Finanzas:
- Margen de beneficio, flujo de caja, tasa de consumo
- Crecimiento de los ingresos, EBITDA
- Antigüedad de las cuentas por cobrar
- Éxito del Cliente:
- Satisfacción del cliente (CSAT), Net Promoter Score (NPS)
- Tasa de abandono, tasa de retención
- Tiempo de resolución de tickets de soporte
Rareza: Común Dificultad: Fácil
Estrategia de Negocio y Comunicación (3 Preguntas)
18. ¿Cómo priorizas los proyectos de análisis?
Respuesta: La priorización asegura el máximo impacto en el negocio.
- Marco:
- Impacto: Valor potencial para el negocio
- Esfuerzo: Tiempo y recursos necesarios
- Urgencia: Sensibilidad al tiempo
- Alineación de las partes interesadas: Apoyo ejecutivo
- Matriz de Priorización:
- Alto Impacto, Bajo Esfuerzo: Hacer primero
- Alto Impacto, Alto Esfuerzo: Planificar cuidadosamente
- Bajo Impacto, Bajo Esfuerzo: Victorias rápidas
- Bajo Impacto, Alto Esfuerzo: Evitar
- Preguntas a Hacer:
- ¿Qué problema de negocio resuelve esto?
- ¿Cuál es el ROI esperado?
- ¿Quiénes son las partes interesadas?
- ¿Qué datos están disponibles?
- ¿Cuáles son las dependencias?
Rareza: Común Dificultad: Media
19. ¿Cómo manejas los requisitos conflictivos de las partes interesadas?
Respuesta: La gestión de las partes interesadas es crucial para los analistas senior.
- Enfoque:
- Entender las necesidades: Haz preguntas aclaratorias
- Encontrar puntos en común: Objetivos compartidos
- Priorizar: Basado en el impacto en el negocio
- Comunicar las contrapartidas: Explica las restricciones
- Proponer alternativas: Soluciones en las que todos ganan
- Escalar si es necesario: Obtener la alineación ejecutiva
- Documentar las decisiones: Registro claro
- Ejemplo:
- Marketing quiere un dashboard en tiempo real
- IT dice que el tiempo real es demasiado caro
- Solución: El tiempo casi real (refresco de 15 minutos) equilibra las necesidades y el coste
Rareza: Común Dificultad: Media
20. ¿Cómo mides el éxito de tu trabajo de análisis?
Respuesta: Demostrar valor es esencial para el crecimiento profesional.
- Métricas:
- Impacto en el Negocio:
- Aumento de los ingresos
- Reducción de costes
- Mejora de la eficiencia
- Mejor toma de decisiones
- Adopción:
- Uso del dashboard
- Distribución de informes
- Feedback de las partes interesadas
- Calidad:
- Precisión de los datos
- Oportunidad
- Capacidad de acción de los insights
- Impacto en el Negocio:
- Documentación:
- Rastrea los proyectos y los resultados
- Cuantifica el impacto cuando sea posible
- Recopila testimonios
- Presenta estudios de caso
Rareza: Media Dificultad: Media



