Preguntas de entrevista para Senior Machine Learning Engineer en producción

Milad Bonakdar
Autor
Las entrevistas senior de ML evalúan criterio de producción: diseño de sistemas, MLOps, entrenamiento distribuido, latencia, monitoreo y trade-offs. Practica respuestas claras y prácticas.
Introducción
Las entrevistas para Senior Machine Learning Engineer suelen evaluar criterio de producción: si puedes diseñar un sistema de ML suficientemente preciso, rápido, observable, reproducible y mantenible después del lanzamiento. Espera preguntas sobre MLOps, diseño de sistemas de ML, model serving, entrenamiento distribuido, pipelines de features, drift y experimentación.
Usa esta guía para practicar respuestas que expliquen trade-offs, no solo herramientas. Una buena respuesta senior empieza por requisitos y métricas, y después conecta datos, features, entrenamiento, despliegue, monitoreo y rollback.
Entrenamiento Distribuido y Escalabilidad (5 Preguntas)
1. ¿Cómo implementa el entrenamiento distribuido para modelos de aprendizaje profundo?
Respuesta: El entrenamiento distribuido paraleliza la computación a través de múltiples GPUs/máquinas.
- Estrategias:
- Paralelismo de Datos: Mismo modelo, diferentes lotes de datos
- Paralelismo de Modelo: Divide el modelo entre dispositivos
- Paralelismo de Pipeline: Divide el modelo en etapas
- Frameworks: PyTorch DDP, Horovod, TensorFlow MirroredStrategy
Rareza: Común Dificultad: Difícil
2. Explique la acumulación de gradientes y cuándo usarla.
Respuesta: La acumulación de gradientes simula tamaños de lote más grandes cuando la memoria de la GPU es limitada.
- Cómo funciona: Acumula gradientes durante múltiples pases hacia adelante antes de actualizar los pesos.
- Casos de uso: Modelos grandes, memoria de GPU limitada, entrenamiento estable.
Rareza: Común Dificultad: Media
3. ¿Cómo optimiza la latencia de inferencia del modelo?
Respuesta: Múltiples técnicas reducen el tiempo de inferencia:
- Optimización del Modelo:
- Cuantización (INT8, FP16)
- Poda (eliminar pesos)
- Destilación del conocimiento
- Compilación del modelo (TorchScript, ONNX)
- Optimización del Servidor:
- Lotes (Batching)
- Almacenamiento en caché (Caching)
- Paralelismo del modelo
- Aceleración por hardware (GPU, TPU)
Rareza: Muy Común Dificultad: Difícil
4. ¿Qué es el entrenamiento de precisión mixta y cómo funciona?
Respuesta: La precisión mixta utiliza FP16 y FP32 para acelerar el entrenamiento manteniendo la precisión.
- Beneficios:
- Entrenamiento 2-3 veces más rápido
- Reducción del uso de memoria
- Tamaños de lote más grandes
- Desafíos:
- Estabilidad numérica
- Subdesbordamiento del gradiente
- Solución: Escala del gradiente
Rareza: Común Dificultad: Media
5. ¿Cómo maneja los cuellos de botella en la canalización de datos?
Respuesta: La carga de datos a menudo crea cuellos de botella en el entrenamiento. Optimice con:
- Prefetching (Precarga): Cargar el siguiente lote mientras se entrena.
- Carga paralela: Múltiples trabajadores
- Caching (Caché): Almacenar datos preprocesados
- Formato de datos: Utilizar formatos eficientes (TFRecord, Parquet)
Rareza: Común Dificultad: Media
MLOps e Infraestructura (5 Preguntas)
6. ¿Cómo diseña un almacén de características (Feature Store)?
Respuesta: Los almacenes de características centralizan la ingeniería y el servicio de características.
- Componentes:
- Almacén Offline: Características históricas para el entrenamiento (S3, BigQuery)
- Almacén Online: Características de baja latencia para el servicio (Redis, DynamoDB)
- Registro de Características: Metadatos y linaje
- Beneficios:
- Reutilización
- Consistencia (entrenamiento/servicio)
- Monitorización
Rareza: Media Dificultad: Difícil
7. ¿Cómo implementa el versionado de modelos y el seguimiento de experimentos?
Respuesta: Realice un seguimiento de los experimentos para reproducir los resultados y comparar los modelos.
Rareza: Muy Común Dificultad: Media
8. ¿Cómo implementa el despliegue de modelos en Kubernetes?
Respuesta: Kubernetes orquesta servicios de ML en contenedores.
Rareza: Común Dificultad: Difícil
9. ¿Qué es la deriva del modelo y cómo la detecta?
Respuesta: La deriva del modelo ocurre cuando el rendimiento del modelo se degrada con el tiempo.
- Tipos:
- Deriva de Datos: Cambia la distribución de entrada
- Deriva de Concepto: Cambia la relación entre X e y
- Detección:
- Pruebas estadísticas (prueba KS, PSI)
- Monitorización del rendimiento
- Comparación de la distribución
Rareza: Común Dificultad: Difícil
10. ¿Cómo implementa las pruebas A/B para modelos de ML?
Respuesta: Las pruebas A/B comparan las versiones del modelo en producción.


