Preguntas de Entrevista para Data Scientist Senior sobre ML, Producto y MLOps

Milad Bonakdar
Autor
Prepárate para entrevistas senior con preguntas prácticas sobre tradeoffs de ML, ingeniería de características, despliegue, monitoreo, pruebas A/B y decisiones de negocio.
Introducción
Para una entrevista de data scientist senior, prepárate para explicar no solo cómo funcionan los modelos, sino cómo los eliges, los llevas a producción, los monitoreas y los explicas. Las respuestas sólidas conectan tradeoffs estadísticos con métricas de producto, calidad de datos, restricciones de despliegue y decisiones de stakeholders.
Usa esta guía para practicar los temas que suelen separar a candidatos senior de perfiles intermedios: sesgo y varianza, diseño de features, datos desbalanceados, monitoreo de modelos, pruebas A/B, MLOps y fundamentos de deep learning. Al responder, añade un ejemplo breve de proyecto, el riesgo que controlaste y la métrica que seguirías después del lanzamiento.
Aprendizaje automático avanzado (6 preguntas)
1. Explique el equilibrio entre sesgo y varianza.
Respuesta: El equilibrio entre sesgo y varianza describe la relación entre la complejidad del modelo y el error de predicción.
- Sesgo: Error derivado de simplificar en exceso las suposiciones (ajuste insuficiente)
- Varianza: Error derivado de la sensibilidad a las fluctuaciones de los datos de entrenamiento (sobreajuste)
- Equilibrio: Disminuir el sesgo aumenta la varianza y viceversa
- Objetivo: Encontrar el equilibrio óptimo que minimice el error total
Rareza: Muy común Dificultad: Difícil
2. ¿Qué es la regularización y explique la regularización L1 frente a L2?
Respuesta: La regularización añade un término de penalización a la función de pérdida para evitar el sobreajuste.
- L1 (Lazo):
- Penalización: Suma de los valores absolutos de los coeficientes
- Efecto: Modelos dispersos (algunos coeficientes se convierten exactamente en 0)
- Uso: Selección de características
- L2 (Ridge):
- Penalización: Suma de los coeficientes al cuadrado
- Efecto: Reduce los coeficientes hacia 0 (pero no exactamente 0)
- Uso: Cuando todas las características son potencialmente relevantes
- Elastic Net: Combina L1 y L2
Rareza: Muy común Dificultad: Media
3. Explique los métodos de conjunto: Bagging vs Boosting.
Respuesta: Los métodos de conjunto combinan múltiples modelos para mejorar el rendimiento.
- Bagging (Bootstrap Aggregating):
- Entrenar modelos en paralelo en subconjuntos aleatorios
- Reduce la varianza
- Ejemplo: Bosque aleatorio
- Boosting:
- Entrenar modelos secuencialmente, cada uno corrigiendo errores anteriores
- Reduce el sesgo
- Ejemplos: AdaBoost, Gradient Boosting, XGBoost
Rareza: Muy común Dificultad: Difícil
4. ¿Qué es la validación cruzada y por qué k-fold es mejor que la división de entrenamiento-prueba?
Respuesta: La validación cruzada evalúa el rendimiento del modelo de forma más robusta que una única división de entrenamiento-prueba.
- K-Fold CV:
- Divide los datos en k pliegues
- Entrena k veces, cada vez utilizando un pliegue diferente como validación
- Promedia los resultados
- Beneficios:
- Estimación del rendimiento más fiable
- Utiliza todos los datos tanto para el entrenamiento como para la validación
- Reduce la varianza en la estimación del rendimiento
- Variaciones: K-Fold estratificado, Leave-One-Out, División de series temporales
Rareza: Muy común Dificultad: Media
5. Explique las técnicas de reducción de la dimensionalidad (PCA, t-SNE).
Respuesta: La reducción de la dimensionalidad reduce el número de características preservando la información.
- PCA (Análisis de componentes principales):
- Transformación lineal
- Encuentra direcciones de máxima varianza
- Preserva la estructura global
- Rápido, interpretable
- t-SNE (t-Distributed Stochastic Neighbor Embedding):
- Transformación no lineal
- Preserva la estructura local
- Bueno para la visualización
- Más lento, no para la extracción de características
Rareza: Común Dificultad: Difícil
6. ¿Qué es la curva ROC y el AUC? ¿Cuándo la usaría?
Respuesta: La curva ROC (Receiver Operating Characteristic) representa la tasa de verdaderos positivos frente a la tasa de falsos positivos en varios umbrales.
- AUC (Área bajo la curva): Métrica única que resume la ROC
- AUC = 1.0: Clasificador perfecto
- AUC = 0.5: Clasificador aleatorio
- AUC < 0.5: Peor que aleatorio
- Casos de uso:
- Comparación de modelos
- Conjuntos de datos desequilibrados
- Cuando necesita elegir el umbral
Rareza: Muy común Dificultad: Media
Ingeniería de características (4 preguntas)
7. ¿Qué técnicas utiliza para la ingeniería de características?
Respuesta: La ingeniería de características crea nuevas características a partir de los datos existentes para mejorar el rendimiento del modelo.
- Técnicas:
- Codificación: Codificación one-hot, de etiqueta, de destino
- Escalado: StandardScaler, MinMaxScaler
- Agrupación: Discretizar variables continuas
- Características polinómicas: Términos de interacción
- Específico del dominio: Características de fecha, características de texto
- Agregaciones: Estadísticas de grupo
Rareza: Muy común Dificultad: Media
8. ¿Cómo maneja los conjuntos de datos desequilibrados?
Respuesta: Los conjuntos de datos desequilibrados tienen distribuciones de clase desiguales, lo que puede sesgar los modelos.
- Técnicas:
- Remuestreo:
- Sobre muestreo de la clase minoritaria (SMOTE)
- Submuestreo de la clase mayoritaria
- Ponderaciones de clase: Penalizar la clasificación errónea de la clase minoritaria
- Métodos de conjunto: Bosque aleatorio equilibrado
- Evaluación: Utilice precisión, recuperación, F1, no solo precisión
- Detección de anomalías: Tratar la minoría como una anomalía
- Remuestreo:
Rareza: Muy común Dificultad: Media
9. Explique las técnicas de selección de características.
Respuesta: La selección de características identifica las características más relevantes para el modelado.
- Métodos:
- Métodos de filtro: Pruebas estadísticas (correlación, chi-cuadrado)
- Métodos de envoltura: Eliminación recursiva de características (RFE)
- Métodos integrados: Lazo, importancia de características basada en árboles
- Reducción de la dimensionalidad: PCA (diferente de la selección)
Rareza: Común Dificultad: Media
10. ¿Cómo maneja las variables categóricas con alta cardinalidad?
Respuesta: Las variables categóricas de alta cardinalidad tienen muchos valores únicos.
- Técnicas:
- Codificación de destino: Reemplazar con la media de destino
- Codificación de frecuencia: Reemplazar con la frecuencia
- Incrustación: Aprender representaciones densas (redes neuronales)
- Agrupación: Combinar categorías raras en "Otro"
- Hashing: Hash a un número fijo de depósitos
Rareza: Común Dificultad: Difícil
Implementación y producción de modelos (4 preguntas)
11. ¿Cómo implementa un modelo de aprendizaje automático en producción?
Respuesta: La implementación de modelos hace que los modelos estén disponibles para su uso en el mundo real.
- Pasos:
- Serialización del modelo: Guardar el modelo (pickle, joblib, ONNX)
- Desarrollo de API: Crear API REST (Flask, FastAPI)
- Contenedorización: Docker para la consistencia
- Implementación: Plataformas en la nube (AWS, GCP, Azure)
- Monitoreo: Seguimiento del rendimiento, deriva
- CI/CD: Pruebas e implementación automatizadas
Rareza: Muy común Dificultad: Difícil
12. ¿Qué es el monitoreo de modelos y por qué es importante?
Respuesta: El monitoreo de modelos rastrea el rendimiento del modelo en producción.
- Qué monitorear:
- Métricas de rendimiento: Precisión, precisión, recuperación
- Deriva de datos: Cambios en la distribución de entrada
- Deriva de conceptos: Cambios en la relación de destino
- Métricas del sistema: Latencia, rendimiento, errores
- Acciones:
- Alertas cuando el rendimiento se degrada
- Volver a entrenar con nuevos datos
- Pruebas A/B de nuevos modelos
Rareza: Común Dificultad: Media
13. Explique las pruebas A/B en el contexto del aprendizaje automático.
Respuesta: Las pruebas A/B comparan dos versiones (control vs tratamiento) para determinar cuál funciona mejor.
- Proceso:
- Dividir el tráfico aleatoriamente
- Servir diferentes modelos a cada grupo
- Recopilar métricas
- Prueba estadística para determinar el ganador
- Métricas: Tasa de conversión, ingresos, participación
- Pruebas estadísticas: Prueba t, chi-cuadrado, métodos bayesianos
Rareza: Común Dificultad: Difícil
14. ¿Qué es MLOps y por qué es importante?
Respuesta: MLOps (Machine Learning Operations) aplica los principios de DevOps a los sistemas de ML.
- Componentes:
- Control de versiones: Código, datos, modelos
- Pruebas automatizadas: Pruebas unitarias, de integración, de modelos
- Canalizaciones de CI/CD: Implementación automatizada
- Monitoreo: Rendimiento, detección de deriva
- Reproducibilidad: Seguimiento de experimentos
- Herramientas: MLflow, Kubeflow, DVC, Weights & Biases


