Preguntas para Entrevistas de Data Scientist Junior: Guía Completa

Milad Bonakdar
Autor
Domina los fundamentos de la ciencia de datos con preguntas esenciales para entrevistas que cubren estadística, Python, conceptos básicos de machine learning, manipulación de datos y visualización para data scientists junior.
Introducción
La ciencia de datos combina estadística, programación y conocimiento del dominio para extraer información valiosa de los datos. Se espera que los científicos de datos junior tengan una base sólida en Python, estadística, fundamentos de aprendizaje automático y herramientas de manipulación de datos.
Esta guía cubre las preguntas esenciales de la entrevista para científicos de datos junior. Exploramos la programación en Python, los fundamentos de la estadística, la manipulación de datos con pandas, los conceptos de aprendizaje automático, la visualización de datos y SQL para ayudarlo a prepararse para su primer puesto en ciencia de datos.
Fundamentos de Python (5 preguntas)
1. ¿Cuál es la diferencia entre una lista y una tupla en Python?
Respuesta:
- Lista: Mutable (se puede modificar), definida con corchetes
[] - Tupla: Inmutable (no se puede modificar), definida con paréntesis
() - Rendimiento: Las tuplas son ligeramente más rápidas y usan menos memoria
- Casos de uso:
- Listas: cuando necesita modificar los datos
- Tuplas: para colecciones fijas, claves de diccionario, retornos de función
Frecuencia: Muy común Dificultad: Fácil
2. Explique la comprensión de listas y dé un ejemplo.
Respuesta: La comprensión de listas proporciona una forma concisa de crear listas basadas en iterables existentes.
- Sintaxis:
[expresión for elemento in iterable if condición] - Beneficios: Más legible, a menudo más rápido que los bucles
Frecuencia: Muy común Dificultad: Fácil
3. ¿Qué son las funciones lambda y cuándo las usaría?
Respuesta: Las funciones lambda son funciones anónimas de una sola expresión.
- Sintaxis:
lambda argumentos: expresión - Casos de uso: Funciones cortas, devoluciones de llamada, ordenamiento, filtrado
Frecuencia: Muy común Dificultad: Fácil
4. Explique la diferencia entre append() y extend() para listas.
Respuesta:
- append(): Agrega un solo elemento al final de la lista
- extend(): Agrega múltiples elementos de un iterable al final
Frecuencia: Común Dificultad: Fácil
5. ¿Qué son *args y **kwargs?
Respuesta: Permiten que las funciones acepten un número variable de argumentos.
*args: Número variable de argumentos posicionales (tupla)**kwargs: Número variable de argumentos de palabra clave (diccionario)
Frecuencia: Común Dificultad: Media
Estadística y Probabilidad (5 preguntas)
6. ¿Cuál es la diferencia entre media, mediana y moda?
Respuesta:
- Media: Promedio de todos los valores (suma / conteo)
- Mediana: Valor medio cuando está ordenado
- Moda: Valor que ocurre con más frecuencia
- Cuándo usar:
- Media: Datos distribuidos normalmente
- Mediana: Datos sesgados o presencia de valores atípicos
- Moda: Datos categóricos
Frecuencia: Muy común Dificultad: Fácil
7. Explique la varianza y la desviación estándar.
Respuesta:
- Varianza: Desviación cuadrática promedio de la media
- Desviación estándar: Raíz cuadrada de la varianza (las mismas unidades que los datos)
- Propósito: Medir la dispersión de los datos
Frecuencia: Muy común Dificultad: Fácil
8. ¿Qué es un valor p y cómo lo interpreta?
Respuesta: El valor p es la probabilidad de obtener resultados al menos tan extremos como los observados, asumiendo que la hipótesis nula es verdadera.
- Interpretación:
- p < 0.05: Rechazar la hipótesis nula (estadísticamente significativo)
- p ≥ 0.05: No se puede rechazar la hipótesis nula
- Nota: El valor p no mide el tamaño del efecto o la importancia
Frecuencia: Muy común Dificultad: Media
9. ¿Qué es el Teorema del Límite Central?
Respuesta: El Teorema del Límite Central establece que la distribución muestral de la media muestral se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra, independientemente de la distribución de la población.
- Puntos clave:
- Funciona para cualquier distribución (si el tamaño de la muestra es lo suficientemente grande)
- Normalmente, n ≥ 30 se considera suficiente
- Permite pruebas de hipótesis e intervalos de confianza
Frecuencia: Común Dificultad: Media
10. ¿Qué es correlación versus causalidad?
Respuesta:
- Correlación: Relación estadística entre dos variables
- Causalidad: Una variable causa directamente cambios en otra
- Punto clave: La correlación NO implica causalidad
- Razones:
- Variables de confusión
- Causalidad inversa
- Coincidencia
Frecuencia: Muy común Dificultad: Fácil
Manipulación de Datos con Pandas (5 preguntas)
11. ¿Cómo se lee un archivo CSV y se muestra información básica?
Respuesta: Use pandas para leer y explorar datos.
Frecuencia: Muy común Dificultad: Fácil
12. ¿Cómo maneja los valores faltantes en un DataFrame?
Respuesta: Múltiples estrategias para manejar datos faltantes:
Frecuencia: Muy común Dificultad: Fácil
13. ¿Cómo filtra y selecciona datos en pandas?
Respuesta: Múltiples formas de filtrar y seleccionar datos:
Frecuencia: Muy común Dificultad: Fácil
14. ¿Cómo agrupa y agrega datos?
Respuesta:
Use groupby() para operaciones de agregación:
Frecuencia: Muy común Dificultad: Media
15. ¿Cómo fusiona o une DataFrames?
Respuesta:
Use merge(), join() o concat():
Frecuencia: Muy común Dificultad: Media
Fundamentos del Aprendizaje Automático (5 preguntas)
16. ¿Cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?
Respuesta:
- Aprendizaje Supervisado:
- Tiene datos de entrenamiento etiquetados (pares entrada-salida)
- Objetivo: Aprender el mapeo de entradas a salidas
- Ejemplos: Clasificación, Regresión
- Algoritmos: Regresión Lineal, Árboles de Decisión, SVM
- Aprendizaje No Supervisado:
- No hay datos etiquetados (solo entradas)
- Objetivo: Encontrar patrones o estructura en los datos
- Ejemplos: Agrupamiento, Reducción de Dimensionalidad
- Algoritmos: K-Means, PCA, Agrupamiento Jerárquico
Frecuencia: Muy común Dificultad: Fácil
17. ¿Qué es el sobreajuste y cómo lo previene?
Respuesta: El sobreajuste ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluido el ruido, y tiene un rendimiento deficiente en datos nuevos.
- Signos:
- Alta precisión de entrenamiento, baja precisión de prueba
- Modelo demasiado complejo para los datos
- Prevención:
- Más datos de entrenamiento
- Validación cruzada
- Regularización (L1, L2)
- Modelos más simples
- Detención temprana
- Dropout (redes neuronales)
Frecuencia: Muy común Dificultad: Media
18. Explique la división de entrenamiento-prueba y por qué es importante.
Respuesta: La división de entrenamiento-prueba divide los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo en datos no vistos.
- Propósito: Prevenir el sobreajuste, estimar el rendimiento en el mundo real
- División típica: 70-30 u 80-20 (entrenamiento-prueba)
- Validación cruzada: Evaluación más robusta
Frecuencia: Muy común Dificultad: Fácil
19. ¿Qué métricas de evaluación utiliza para la clasificación?
Respuesta: Diferentes métricas para diferentes escenarios:
- Precisión (Accuracy): Corrección general (buena para conjuntos de datos equilibrados)
- Precisión (Precision): De los positivos predichos, cuántos son correctos
- Recuperación (Recall): De los positivos reales, cuántos se encontraron
- Puntaje F1 (F1-Score): Media armónica de precisión y recuperación
- Matriz de Confusión (Confusion Matrix): Desglose detallado de las predicciones
Frecuencia: Muy común Dificultad: Media
20. ¿Cuál es la diferencia entre clasificación y regresión?
Respuesta:
- Clasificación:
- Predice categorías/clases discretas
- Salida: Etiqueta de clase
- Ejemplos: Detección de spam, clasificación de imágenes
- Algoritmos: Regresión Logística, Árboles de Decisión, SVM
- Métricas: Precisión, Precisión, Recuperación, F1
- Regresión:
- Predice valores numéricos continuos
- Salida: Número
- Ejemplos: Predicción del precio de la vivienda, previsión de la temperatura
- Algoritmos: Regresión Lineal, Regresor de Bosque Aleatorio
- Métricas: MSE, RMSE, MAE, R²
Frecuencia: Muy común Dificultad: Fácil



