Questions d'entretien Senior Machine Learning Engineer pour le ML en production

Milad Bonakdar
Auteur
Les entretiens senior ML évaluent le jugement en production : conception système, MLOps, entraînement distribué, latence, monitoring et arbitrages. Entraînez des réponses claires et concrètes.
Introduction
Les entretiens Senior Machine Learning Engineer évaluent surtout votre jugement en production : pouvez-vous concevoir un système ML assez précis, assez rapide, observable, reproductible et maintenable après le lancement ? Attendez-vous à des questions sur le MLOps, le system design ML, le model serving, l'entraînement distribué, les pipelines de features, le drift et l'expérimentation.
Utilisez ce guide pour préparer des réponses qui expliquent les arbitrages, pas seulement les outils. Une bonne réponse senior commence par les exigences et les métriques, puis relie données, features, entraînement, déploiement, monitoring et rollback.
Entraînement distribué et évolutivité (5 questions)
1. Comment implémentez-vous l'entraînement distribué pour les modèles d'apprentissage profond ?
Réponse : L'entraînement distribué parallélise le calcul sur plusieurs GPU/machines.
- Stratégies :
- Parallélisme des données : Même modèle, différents lots de données
- Parallélisme des modèles : Diviser le modèle entre les appareils
- Parallélisme de pipeline : Diviser le modèle en étapes
- Frameworks : PyTorch DDP, Horovod, TensorFlow MirroredStrategy
Rareté : Courant Difficulté : Difficile
2. Expliquez l'accumulation de gradient et quand l'utiliser.
Réponse : L'accumulation de gradient simule des tailles de lots plus importantes lorsque la mémoire GPU est limitée.
- Fonctionnement : Accumuler les gradients sur plusieurs passes avant de mettre à jour les poids
- Cas d'utilisation : Grands modèles, mémoire GPU limitée, entraînement stable
Rareté : Courant Difficulté : Moyen
3. Comment optimisez-vous la latence d'inférence du modèle ?
Réponse : Plusieurs techniques réduisent le temps d'inférence :
- Optimisation du modèle :
- Quantification (INT8, FP16)
- Élagage (supprimer les poids)
- Distillation des connaissances
- Compilation du modèle (TorchScript, ONNX)
- Optimisation du service :
- Traitement par lots
- Mise en cache
- Parallélisme du modèle
- Accélération matérielle (GPU, TPU)
Rareté : Très courant Difficulté : Difficile
4. Qu'est-ce que l'entraînement en précision mixte et comment fonctionne-t-il ?
Réponse : La précision mixte utilise FP16 et FP32 pour accélérer l'entraînement tout en conservant la précision.
- Avantages :
- Entraînement plus rapide sur le matériel adapté
- Utilisation réduite de la mémoire
- Tailles de lots plus importantes
- Défis :
- Stabilité numérique
- Dépassement de capacité du gradient
- Solution : Mise à l'échelle du gradient
Rareté : Courant Difficulté : Moyen
5. Comment gérez-vous les goulots d'étranglement du pipeline de données ?
Réponse : Le chargement des données constitue souvent un goulot d'étranglement pour l'entraînement. Optimiser avec :
- Prélecture : Charger le lot suivant pendant l'entraînement
- Chargement parallèle : Plusieurs workers
- Mise en cache : Stocker les données prétraitées
- Format de données : Utiliser des formats efficaces (TFRecord, Parquet)
Rareté : Courant Difficulté : Moyen
MLOps et infrastructure (5 questions)
6. Comment concevez-vous un magasin de caractéristiques ?
Réponse : Les magasins de caractéristiques centralisent l'ingénierie et le service des caractéristiques.
- Composants :
- Magasin hors ligne : Caractéristiques historiques pour l'entraînement (S3, BigQuery)
- Magasin en ligne : Caractéristiques à faible latence pour le service (Redis, DynamoDB)
- Registre de caractéristiques : Métadonnées et filiation
- Avantages :
- Réutilisabilité
- Cohérence (entraînement/service)
- Surveillance
Rareté : Moyen Difficulté : Difficile
7. Comment implémentez-vous le contrôle de version du modèle et le suivi des expériences ?
Réponse : Suivre les expériences pour reproduire les résultats et comparer les modèles.
Rareté : Très courant Difficulté : Moyen
8. Comment déployez-vous des modèles sur Kubernetes ?
Réponse : Kubernetes orchestre les services ML conteneurisés.
Rareté : Courant Difficulté : Difficile
9. Qu'est-ce que la dérive du modèle et comment la détectez-vous ?
Réponse : La dérive du modèle se produit lorsque les performances du modèle se dégradent au fil du temps.
- Types :
- Dérive des données : Les changements de distribution des entrées
- Dérive du concept : La relation entre X et y change
- Détection :
- Tests statistiques (test KS, PSI)
- Surveillance des performances
- Comparaison de la distribution
Rareté : Courant Difficulté : Difficile
10. Comment implémentez-vous les tests A/B pour les modèles ML ?
Réponse : Les tests A/B comparent les versions de modèle en production.


