Preguntas de entrevista para Data Scientist Junior: Python, SQL, estadística y ML

Milad Bonakdar
Autor
Prepárate para una entrevista de data scientist junior con preguntas prácticas sobre Python, pandas, SQL, estadística, machine learning básico y explicación de proyectos.
Introducción
En una entrevista para data scientist junior, suelen evaluar si puedes limpiar datos, escribir Python y SQL básicos, explicar estadística con claridad y razonar sobre problemas sencillos de machine learning. Las mejores respuestas son breves, prácticas y conectadas con proyectos, cursos o prácticas reales.
Usa esta guía para practicar las áreas que normalmente se revisan primero: fundamentos de Python, manipulación de datos con pandas, pensamiento en SQL, probabilidad y estadística, evaluación de modelos y explicación de decisiones sin exagerar tu experiencia.
Fundamentos de Python (5 preguntas)
1. ¿Cuál es la diferencia entre una lista y una tupla en Python?
Respuesta:
- Lista: Mutable (se puede modificar), definida con corchetes
[] - Tupla: Inmutable (no se puede modificar), definida con paréntesis
() - Rendimiento: Las tuplas son ligeramente más rápidas y usan menos memoria
- Casos de uso:
- Listas: cuando necesita modificar los datos
- Tuplas: para colecciones fijas, claves de diccionario, retornos de función
Frecuencia: Muy común Dificultad: Fácil
2. Explique la comprensión de listas y dé un ejemplo.
Respuesta: La comprensión de listas proporciona una forma concisa de crear listas basadas en iterables existentes.
- Sintaxis:
[expresión for elemento in iterable if condición] - Beneficios: Más legible, a menudo más rápido que los bucles
Frecuencia: Muy común Dificultad: Fácil
3. ¿Qué son las funciones lambda y cuándo las usaría?
Respuesta: Las funciones lambda son funciones anónimas de una sola expresión.
- Sintaxis:
lambda argumentos: expresión - Casos de uso: Funciones cortas, devoluciones de llamada, ordenamiento, filtrado
Frecuencia: Muy común Dificultad: Fácil
4. Explique la diferencia entre append() y extend() para listas.
Respuesta:
- append(): Agrega un solo elemento al final de la lista
- extend(): Agrega múltiples elementos de un iterable al final
Frecuencia: Común Dificultad: Fácil
5. ¿Qué son *args y **kwargs?
Respuesta: Permiten que las funciones acepten un número variable de argumentos.
*args: Número variable de argumentos posicionales (tupla)**kwargs: Número variable de argumentos de palabra clave (diccionario)
Frecuencia: Común Dificultad: Media
Estadística y Probabilidad (5 preguntas)
6. ¿Cuál es la diferencia entre media, mediana y moda?
Respuesta:
- Media: Promedio de todos los valores (suma / conteo)
- Mediana: Valor medio cuando está ordenado
- Moda: Valor que ocurre con más frecuencia
- Cuándo usar:
- Media: Datos distribuidos normalmente
- Mediana: Datos sesgados o presencia de valores atípicos
- Moda: Datos categóricos
Frecuencia: Muy común Dificultad: Fácil
7. Explique la varianza y la desviación estándar.
Respuesta:
- Varianza: Desviación cuadrática promedio de la media
- Desviación estándar: Raíz cuadrada de la varianza (las mismas unidades que los datos)
- Propósito: Medir la dispersión de los datos
Frecuencia: Muy común Dificultad: Fácil
8. ¿Qué es un valor p y cómo lo interpreta?
Respuesta: El valor p es la probabilidad de obtener resultados al menos tan extremos como los observados, asumiendo que la hipótesis nula es verdadera.
- Interpretación:
- p < 0.05: Rechazar la hipótesis nula (estadísticamente significativo)
- p ≥ 0.05: No se puede rechazar la hipótesis nula
- Nota: El valor p no mide el tamaño del efecto o la importancia
Frecuencia: Muy común Dificultad: Media
9. ¿Qué es el Teorema del Límite Central?
Respuesta: El Teorema del Límite Central establece que la distribución muestral de la media muestral se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra, independientemente de la distribución de la población.
- Puntos clave:
- Funciona para cualquier distribución (si el tamaño de la muestra es lo suficientemente grande)
- Un tamaño de muestra cercano a 30 es una regla práctica, no una garantía; datos sesgados o con colas pesadas pueden requerir más
- Permite pruebas de hipótesis e intervalos de confianza
Frecuencia: Común Dificultad: Media
10. ¿Qué es correlación versus causalidad?
Respuesta:
- Correlación: Relación estadística entre dos variables
- Causalidad: Una variable causa directamente cambios en otra
- Punto clave: La correlación NO implica causalidad
- Razones:
- Variables de confusión
- Causalidad inversa
- Coincidencia
Frecuencia: Muy común Dificultad: Fácil
Manipulación de Datos con Pandas (5 preguntas)
11. ¿Cómo se lee un archivo CSV y se muestra información básica?
Respuesta: Use pandas para leer y explorar datos.
Frecuencia: Muy común Dificultad: Fácil
12. ¿Cómo maneja los valores faltantes en un DataFrame?
Respuesta: Múltiples estrategias para manejar datos faltantes:
Frecuencia: Muy común Dificultad: Fácil
13. ¿Cómo filtra y selecciona datos en pandas?
Respuesta: Múltiples formas de filtrar y seleccionar datos:
Frecuencia: Muy común Dificultad: Fácil
14. ¿Cómo agrupa y agrega datos?
Respuesta:
Use groupby() para operaciones de agregación:
Frecuencia: Muy común Dificultad: Media
15. ¿Cómo fusiona o une DataFrames?
Respuesta:
Use merge(), join() o concat():
Frecuencia: Muy común Dificultad: Media
Fundamentos del Aprendizaje Automático (5 preguntas)
16. ¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?
Respuesta:
- Aprendizaje Supervisado:
- Tiene datos de entrenamiento etiquetados (pares entrada-salida)
- Objetivo: Aprender el mapeo de entradas a salidas
- Ejemplos: Clasificación, Regresión
- Algoritmos: Regresión Lineal, Árboles de Decisión, SVM
- Aprendizaje No Supervisado:
- No hay datos etiquetados (solo entradas)
- Objetivo: Encontrar patrones o estructura en los datos
- Ejemplos: Agrupamiento, Reducción de Dimensionalidad
- Algoritmos: K-Means, PCA, Agrupamiento Jerárquico
Frecuencia: Muy común Dificultad: Fácil
17. ¿Qué es el sobreajuste y cómo lo previene?
Respuesta: El sobreajuste ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluido el ruido, y tiene un rendimiento deficiente en datos nuevos.
- Signos:
- Alta precisión de entrenamiento, baja precisión de prueba
- Modelo demasiado complejo para los datos
- Prevención:
- Más datos de entrenamiento
- Validación cruzada
- Regularización (L1, L2)
- Modelos más simples
- Detención temprana
- Dropout (redes neuronales)
Frecuencia: Muy común Dificultad: Media
18. Explique la división de entrenamiento-prueba y por qué es importante.
Respuesta: La división de entrenamiento-prueba divide los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo en datos no vistos.
- Propósito: Prevenir el sobreajuste, estimar el rendimiento en el mundo real
- División típica: 70-30 u 80-20 (entrenamiento-prueba)
- Validación cruzada: Evaluación más robusta
Frecuencia: Muy común Dificultad: Fácil
19. ¿Qué métricas de evaluación utiliza para la clasificación?
Respuesta: Diferentes métricas para diferentes escenarios:
- Precisión (Accuracy): Corrección general (buena para conjuntos de datos equilibrados)
- Precisión (Precision): De los positivos predichos, cuántos son correctos
- Recuperación (Recall): De los positivos reales, cuántos se encontraron
- Puntaje F1 (F1-Score): Media armónica de precisión y recuperación
- Matriz de Confusión (Confusion Matrix): Desglose detallado de las predicciones
Frecuencia: Muy común Dificultad: Media
20. ¿Cuál es la diferencia entre clasificación y regresión?
Respuesta:
- Clasificación:
- Predice categorías/clases discretas
- Salida: Etiqueta de clase
- Ejemplos: Detección de spam, clasificación de imágenes
- Algoritmos: Regresión Logística, Árboles de Decisión, SVM
- Métricas: Precisión, Precisión, Recuperación, F1
- Regresión:
- Predice valores numéricos continuos
- Salida: Número
- Ejemplos: Predicción del precio de la vivienda, previsión de la temperatura
- Algoritmos: Regresión Lineal, Regresor de Bosque Aleatorio
- Métricas: MSE, RMSE, MAE, R²
Frecuencia: Muy común Dificultad: Fácil


