Perguntas para Entrevista de Cientista de Dados Júnior: Guia Completo

Milad Bonakdar
Autor
Domine os fundamentos da ciência de dados com perguntas essenciais para entrevistas, abrangendo estatística, Python, conceitos básicos de aprendizado de máquina, manipulação de dados e visualização para cientistas de dados juniores.
Introdução
A ciência de dados combina estatística, programação e conhecimento de domínio para extrair insights dos dados. Espera-se que cientistas de dados juniores tenham uma base sólida em Python, estatística, princípios básicos de aprendizado de máquina e ferramentas de manipulação de dados.
Este guia aborda as principais perguntas de entrevistas para Cientistas de Dados Juniores. Exploramos a programação em Python, fundamentos de estatística, manipulação de dados com pandas, conceitos de aprendizado de máquina, visualização de dados e SQL para ajudá-lo a se preparar para sua primeira função em ciência de dados.
Fundamentos de Python (5 perguntas)
1. Qual é a diferença entre uma lista e uma tupla em Python?
Resposta:
- Lista: Mutável (pode ser modificada), definida com colchetes
[] - Tupla: Imutável (não pode ser modificada), definida com parênteses
() - Performance: Tuplas são ligeiramente mais rápidas e usam menos memória
- Casos de Uso:
- Listas: Quando você precisa modificar os dados
- Tuplas: Para coleções fixas, chaves de dicionário, retornos de função
Raridade: Muito Comum Dificuldade: Fácil
2. Explique a compreensão de lista e dê um exemplo.
Resposta: A compreensão de lista fornece uma maneira concisa de criar listas com base em iteráveis existentes.
- Sintaxe:
[expressão for item in iterável if condição] - Benefícios: Mais legível, geralmente mais rápido que loops
Raridade: Muito Comum Dificuldade: Fácil
3. O que são funções lambda e quando você as usaria?
Resposta: Funções lambda são funções anônimas de expressão única.
- Sintaxe:
lambda argumentos: expressão - Casos de Uso: Funções curtas, callbacks, ordenação, filtragem
Raridade: Muito Comum Dificuldade: Fácil
4. Explique a diferença entre append() e extend() para listas.
Resposta:
- append(): Adiciona um único elemento ao final da lista
- extend(): Adiciona vários elementos de um iterável ao final
Raridade: Comum Dificuldade: Fácil
5. O que são *args e **kwargs?
Resposta: Eles permitem que funções aceitem um número variável de argumentos.
*args: Número variável de argumentos posicionais (tupla)**kwargs: Número variável de argumentos de palavra-chave (dicionário)
Raridade: Comum Dificuldade: Média
Estatística e Probabilidade (5 perguntas)
6. Qual é a diferença entre média, mediana e moda?
Resposta:
- Média: Média de todos os valores (soma / contagem)
- Mediana: Valor do meio quando ordenado
- Moda: Valor que ocorre com mais frequência
- Quando usar:
- Média: Dados normalmente distribuídos
- Mediana: Dados distorcidos ou outliers presentes
- Moda: Dados categóricos
Raridade: Muito Comum Dificuldade: Fácil
7. Explique variância e desvio padrão.
Resposta:
- Variância: Desvio quadrático médio da média
- Desvio Padrão: Raiz quadrada da variância (mesmas unidades dos dados)
- Objetivo: Medir a dispersão dos dados
Raridade: Muito Comum Dificuldade: Fácil
8. O que é um valor p e como você o interpreta?
Resposta: O valor p é a probabilidade de obter resultados pelo menos tão extremos quanto os observados, assumindo que a hipótese nula seja verdadeira.
- Interpretação:
- p < 0,05: Rejeitar a hipótese nula (estatisticamente significativo)
- p ≥ 0,05: Não rejeitar a hipótese nula
- Observação: o valor p não mede o tamanho ou a importância do efeito
Raridade: Muito Comum Dificuldade: Média
9. O que é o Teorema do Limite Central?
Resposta: O Teorema do Limite Central afirma que a distribuição amostral da média amostral se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta, independentemente da distribuição da população.
- Pontos Chave:
- Funciona para qualquer distribuição (se o tamanho da amostra for grande o suficiente)
- Normalmente, n ≥ 30 é considerado suficiente
- Permite testes de hipóteses e intervalos de confiança
Raridade: Comum Dificuldade: Média
10. O que é correlação vs causalidade?
Resposta:
- Correlação: Relação estatística entre duas variáveis
- Causalidade: Uma variável causa diretamente mudanças em outra
- Ponto Chave: Correlação NÃO implica causalidade
- Razões:
- Variáveis de confusão
- Causalidade reversa
- Coincidência
Raridade: Muito Comum Dificuldade: Fácil
Manipulação de Dados com Pandas (5 perguntas)
11. Como você lê um arquivo CSV e exibe informações básicas?
Resposta: Use pandas para ler e explorar dados.
Raridade: Muito Comum Dificuldade: Fácil
12. Como você lida com valores ausentes em um DataFrame?
Resposta: Múltiplas estratégias para lidar com dados ausentes:
Raridade: Muito Comum Dificuldade: Fácil
13. Como você filtra e seleciona dados no pandas?
Resposta: Múltiplas maneiras de filtrar e selecionar dados:
Raridade: Muito Comum Dificuldade: Fácil
14. Como você agrupa e agrega dados?
Resposta:
Use groupby() para operações de agregação:
Raridade: Muito Comum Dificuldade: Média
15. Como você mescla ou junta DataFrames?
Resposta:
Use merge(), join() ou concat():
Raridade: Muito Comum Dificuldade: Média
Princípios Básicos de Aprendizado de Máquina (5 perguntas)
16. Qual é a diferença entre aprendizado supervisionado e não supervisionado?
Resposta:
- Aprendizado Supervisionado:
- Tem dados de treinamento rotulados (pares de entrada-saída)
- Objetivo: Aprender o mapeamento de entradas para saídas
- Exemplos: Classificação, Regressão
- Algoritmos: Regressão Linear, Árvores de Decisão, SVM
- Aprendizado Não Supervisionado:
- Sem dados rotulados (apenas entradas)
- Objetivo: Encontrar padrões ou estrutura nos dados
- Exemplos: Agrupamento, Redução de Dimensionalidade
- Algoritmos: K-Means, PCA, Agrupamento Hierárquico
Raridade: Muito Comum Dificuldade: Fácil
17. O que é overfitting e como você o previne?
Resposta: O overfitting ocorre quando um modelo aprende os dados de treinamento bem demais, incluindo o ruído, e tem um desempenho ruim em novos dados.
- Sinais:
- Alta precisão de treinamento, baixa precisão de teste
- Modelo muito complexo para os dados
- Prevenção:
- Mais dados de treinamento
- Validação cruzada
- Regularização (L1, L2)
- Modelos mais simples
- Parada antecipada
- Dropout (redes neurais)
Raridade: Muito Comum Dificuldade: Média
18. Explique a divisão treino-teste e por que ela é importante.
Resposta: A divisão treino-teste divide os dados em conjuntos de treinamento e teste para avaliar o desempenho do modelo em dados não vistos.
- Objetivo: Prevenir overfitting, estimar o desempenho no mundo real
- Divisão Típica: 70-30 ou 80-20 (treino-teste)
- Validação Cruzada: Avaliação mais robusta
Raridade: Muito Comum Dificuldade: Fácil
19. Quais métricas de avaliação você usa para classificação?
Resposta: Diferentes métricas para diferentes cenários:
- Precisão (Accuracy): Correção geral (boa para conjuntos de dados balanceados)
- Precisão (Precision): Dos positivos previstos, quantos estão corretos
- Revocação (Recall): Dos positivos reais, quantos foram encontrados
- Pontuação F1 (F1-Score): Média harmônica de precisão e revocação
- Matriz de Confusão (Confusion Matrix): Detalhamento das predições
Raridade: Muito Comum Dificuldade: Média
20. Qual é a diferença entre classificação e regressão?
Resposta:
- Classificação:
- Prediz categorias/classes discretas
- Saída: Rótulo de classe
- Exemplos: Detecção de spam, classificação de imagem
- Algoritmos: Regressão Logística, Árvores de Decisão, SVM
- Métricas: Precisão, Precisão, Revocação, F1
- Regressão:
- Prediz valores numéricos contínuos
- Saída: Número
- Exemplos: Predição de preço de casas, previsão de temperatura
- Algoritmos: Regressão Linear, Regressor de Floresta Aleatória
- Métricas: MSE, RMSE, MAE, R²
Raridade: Muito Comum Dificuldade: Fácil



