Perguntas de entrevista para Senior Machine Learning Engineer em produção

Milad Bonakdar
Autor
Entrevistas senior de ML avaliam julgamento de produção: design de sistemas, MLOps, treinamento distribuído, latência, monitoramento e trade-offs. Pratique respostas claras e úteis.
Introdução
Entrevistas para Senior Machine Learning Engineer costumam avaliar julgamento de produção: você consegue projetar um sistema de ML preciso o suficiente, rápido, observável, reproduzível e fácil de manter depois do lançamento? Espere perguntas sobre MLOps, design de sistemas de ML, model serving, treinamento distribuído, pipelines de features, drift e experimentação.
Use este guia para praticar respostas que expliquem trade-offs, não apenas ferramentas. Uma boa resposta senior começa por requisitos e métricas, depois conecta dados, features, treinamento, deploy, monitoramento e rollback.
Treinamento Distribuído e Escalabilidade (5 Perguntas)
1. Como você implementa o treinamento distribuído para modelos de deep learning?
Resposta: O treinamento distribuído paraleliza a computação em várias GPUs/máquinas.
- Estratégias:
- Paralelismo de Dados: Mesmo modelo, diferentes lotes de dados
- Paralelismo de Modelo: Divide o modelo entre dispositivos
- Paralelismo de Pipeline: Divide o modelo em estágios
- Frameworks: PyTorch DDP, Horovod, TensorFlow MirroredStrategy
Raridade: Comum Dificuldade: Difícil
2. Explique o acúmulo de gradiente e quando usá-lo.
Resposta: O acúmulo de gradiente simula tamanhos de lote maiores quando a memória da GPU é limitada.
- Como funciona: Acumula gradientes em várias passagens forward antes de atualizar os pesos
- Casos de uso: Modelos grandes, memória limitada da GPU, treinamento estável
Raridade: Comum Dificuldade: Média
3. Como você otimiza a latência de inferência do modelo?
Resposta: Várias técnicas reduzem o tempo de inferência:
- Otimização do Modelo:
- Quantização (INT8, FP16)
- Poda (remove pesos)
- Destilação de conhecimento
- Compilação do modelo (TorchScript, ONNX)
- Otimização de Serving:
- Batching
- Caching
- Paralelismo de modelo
- Aceleração de hardware (GPU, TPU)
Raridade: Muito Comum Dificuldade: Difícil
4. O que é treinamento de precisão mista e como funciona?
Resposta: A precisão mista usa FP16 e FP32 para acelerar o treinamento, mantendo a precisão.
- Benefícios:
- Treinamento mais rápido em hardware adequado
- Uso reduzido de memória
- Tamanhos de lote maiores
- Desafios:
- Estabilidade numérica
- Underflow de gradiente
- Solução: Escalonamento de gradiente
Raridade: Comum Dificuldade: Média
5. Como você lida com gargalos no pipeline de dados?
Resposta: O carregamento de dados geralmente cria gargalos no treinamento. Otimize com:
- Prefetching: Carrega o próximo lote durante o treinamento
- Carregamento paralelo: Vários workers
- Caching: Armazena dados pré-processados
- Formato de dados: Use formatos eficientes (TFRecord, Parquet)
Raridade: Comum Dificuldade: Média
MLOps e Infraestrutura (5 Perguntas)
6. Como você projeta um feature store?
Resposta: Os feature stores centralizam a engenharia e o serving de features.
- Componentes:
- Offline Store: Features históricas para treinamento (S3, BigQuery)
- Online Store: Features de baixa latência para serving (Redis, DynamoDB)
- Feature Registry: Metadados e linhagem
- Benefícios:
- Reusabilidade
- Consistência (treinamento/serving)
- Monitoramento
Raridade: Média Dificuldade: Difícil
7. Como você implementa o versionamento de modelos e o rastreamento de experimentos?
Resposta: Rastreie experimentos para reproduzir resultados e comparar modelos.
Raridade: Muito Comum Dificuldade: Média
8. Como você implanta modelos no Kubernetes?
Resposta: O Kubernetes orquestra serviços de ML conteinerizados.
Raridade: Comum Dificuldade: Difícil
9. O que é model drift e como você o detecta?
Resposta: O model drift ocorre quando o desempenho do modelo se degrada ao longo do tempo.
- Tipos:
- Data Drift: A distribuição de entrada muda
- Concept Drift: A relação entre X e y muda
- Detecção:
- Testes estatísticos (teste KS, PSI)
- Monitoramento de desempenho
- Comparação de distribuição
Raridade: Comum Dificuldade: Difícil
10. Como você implementa testes A/B para modelos de ML?
Resposta: O teste A/B compara versões de modelo em produção.
Raridade: Comum Dificuldade: Difícil
Design de Sistema e Arquitetura (3 Perguntas)
11. Projete uma arquitetura de sistema de recomendação.
Resposta: Os sistemas de recomend


