시니어 데이터 사이언티스트 면접 질문: ML, 제품, MLOps

Milad Bonakdar
작성자
ML 트레이드오프, 특징 엔지니어링, 모델 배포, 모니터링, A/B 테스트, 비즈니스 의사결정을 다루는 실전 질문으로 시니어 면접을 준비하세요.
소개
고급 데이터 과학자는 엔드 투 엔드 머신러닝 솔루션을 설계하고, 모델 성능을 최적화하며, 모델을 프로덕션에 배포하고, 이해 관계자에게 통찰력을 전달할 수 있어야 합니다. 이 역할은 고급 알고리즘, 특징 엔지니어링, 모델 배포에 대한 깊은 전문 지식과 데이터를 사용하여 복잡한 비즈니스 문제를 해결하는 능력을 요구합니다.
이 종합 가이드는 고급 머신러닝, 딥러닝, 특징 엔지니어링, 모델 배포, A/B 테스트 및 빅 데이터 기술을 아우르는 고급 데이터 과학자에게 필요한 필수 면접 질문을 다룹니다. 각 질문에는 자세한 답변, 희소성 평가 및 난이도 등급이 포함되어 있습니다.
고급 머신러닝 (6개의 질문)
1. 편향-분산 트레이드오프를 설명하세요.
답변: 편향-분산 트레이드오프는 모델 복잡성과 예측 오류 간의 관계를 설명합니다.
- 편향(Bias): 과도하게 단순화된 가정으로 인한 오류 (과소적합)
- 분산(Variance): 훈련 데이터의 변동에 민감한 오류 (과대적합)
- 트레이드오프(Tradeoff): 편향을 줄이면 분산이 증가하고 그 반대도 마찬가지입니다.
- 목표(Goal): 총 오류를 최소화하는 최적의 균형을 찾습니다.
희소성: 매우 흔함 난이도: 어려움
2. 정규화가 무엇이며 L1과 L2 정규화를 설명하세요.
답변: 정규화는 과대적합을 방지하기 위해 손실 함수에 페널티 항을 추가합니다.
- L1 (Lasso):
- 페널티: 계수의 절대값의 합
- 효과: 희소 모델 (일부 계수가 정확히 0이 됨)
- 용도: 특징 선택
- L2 (Ridge):
- 페널티: 계수의 제곱의 합
- 효과: 계수를 0으로 축소 (정확히 0은 아님)
- 용도: 모든 특징이 잠재적으로 관련이 있을 때
- Elastic Net: L1과 L2를 결합
희소성: 매우 흔함 난이도: 중간
3. 앙상블 방법: 배깅과 부스팅을 설명하세요.
답변: 앙상블 방법은 여러 모델을 결합하여 성능을 향상시킵니다.
- 배깅(Bagging, Bootstrap Aggregating):
- 무작위 하위 집합에서 병렬로 모델 훈련
- 분산 감소
- 예시: Random Forest
- 부스팅(Boosting):
- 이전 오류를 수정하면서 순차적으로 모델 훈련
- 편향 감소
- 예시: AdaBoost, Gradient Boosting, XGBoost
희소성: 매우 흔함 난이도: 어려움
4. 교차 검증이 무엇이며 K-폴드가 훈련-테스트 분할보다 나은 이유는 무엇입니까?
답변: 교차 검증은 단일 훈련-테스트 분할보다 모델 성능을 더 강력하게 평가합니다.
- K-폴드 CV:
- 데이터를 k개의 폴드로 분할
- 각 폴드를 검증으로 사용하여 k번 훈련
- 결과 평균
- 장점:
- 더 신뢰할 수 있는 성능 추정
- 훈련 및 검증에 모든 데이터 사용
- 성능 추정의 분산 감소
- 변형: 계층화된 K-폴드, Leave-One-Out, 시계열 분할
희소성: 매우 흔함 난이도: 중간
5. 차원 축소 기술 (PCA, t-SNE)을 설명하세요.
답변: 차원 축소는 정보를 보존하면서 특징의 수를 줄입니다.
- PCA(Principal Component Analysis, 주성분 분석):
- 선형 변환
- 최대 분산 방향 찾기
- 전역 구조 보존
- 빠르고 해석 가능
- t-SNE(t-Distributed Stochastic Neighbor Embedding):
- 비선형 변환
- 로컬 구조 보존
- 시각화에 적합
- 느리고 특징 추출에는 적합하지 않음
희소성: 흔함 난이도: 어려움
6. ROC 곡선과 AUC가 무엇입니까? 언제 사용하시겠습니까?
답변: ROC(Receiver Operating Characteristic, 수신자 조작 특성) 곡선은 다양한 임계값에서 참 양성 비율 대 거짓 양성 비율을 나타냅니다.
- AUC(Area Under Curve, 곡선 아래 면적): ROC를 요약하는 단일 메트릭
- AUC = 1.0: 완벽한 분류기
- AUC = 0.5: 무작위 분류기
- AUC < 0.5: 무작위보다 나쁨
- 사용 사례:
- 모델 비교
- 불균형 데이터 세트
- 임계값을 선택해야 할 때
희소성: 매우 흔함 난이도: 중간
특징 엔지니어링 (4개의 질문)
7. 특징 엔지니어링에 어떤 기술을 사용하십니까?
답변: 특징 엔지니어링은 모델 성능을 향상시키기 위해 기존 데이터에서 새로운 특징을 만듭니다.
- 기술:
- 인코딩: 원-핫, 레이블, 대상 인코딩
- 스케일링: StandardScaler, MinMaxScaler
- 구간화: 연속 변수 이산화
- 다항 특징: 상호 작용 항
- 도메인 특정: 날짜 특징, 텍스트 특징
- 집계: 그룹 통계
희소성: 매우 흔함 난이도: 중간
8. 불균형 데이터 세트를 어떻게 처리합니까?
답변: 불균형 데이터 세트는 클래스 분포가 고르지 않아 모델을 편향시킬 수 있습니다.
- 기술:
- 재샘플링:
- 소수 클래스 오버샘플링 (SMOTE)
- 다수 클래스 언더샘플링
- 클래스 가중치: 소수 클래스의 오분류에 페널티 부여
- 앙상블 방법: 균형 잡힌 Random Forest
- 평가: 정확도뿐만 아니라 정밀도, 재현율, F1 사용
- 이상 감지: 소수를 이상으로 취급
- 재샘플링:
희소성: 매우 흔함 난이도: 중간
9. 특징 선택 기술을 설명하세요.
답변: 특징 선택은 모델링에 가장 적합한 특징을 식별합니다.
- 방법:
- 필터 방법: 통계 테스트 (상관 관계, 카이 제곱)
- 래퍼 방법: RFE (Recursive Feature Elimination, 재귀적 특징 제거)
- 임베디드 방법: Lasso, 트리 기반 특징 중요도
- 차원 축소: PCA (선택과는 다름)
희소성: 흔함 난이도: 중간
10. 카디널리티가 높은 범주형 변수를 어떻게 처리합니까?
답변: 카디널리티가 높은 범주형 변수는 고유한 값이 많습니다.
- 기술:
- 대상 인코딩: 대상 평균으로 대체
- 빈도 인코딩: 빈도로 대체
- 임베딩: 조밀한 표현 학습 (신경망)
- 그룹화: 드문 범주를 "기타"로 결합
- 해싱: 고정된 버킷 수로 해싱
희소성: 흔함 난이도: 어려움
모델 배포 및 프로덕션 (4개의 질문)
11. 머신러닝 모델을 프로덕션에 어떻게 배포합니까?
답변: 모델 배포는 모델을 실제 사용에 사용할 수 있도록 합니다.
- 단계:
- 모델 직렬화: 모델 저장 (pickle, joblib, ONNX)
- API 개발: REST API 생성 (Flask, FastAPI)
- 컨테이너화: 일관성을 위해 Docker 사용
- 배포: 클라우드 플랫폼 (AWS, GCP, Azure)
- 모니터링: 성능, 드리프트 추적
- CI/CD: 자동화된 테스트 및 배포
희소성: 매우 흔함 난이도: 어려움
12. 모델 모니터링이란 무엇이며 왜 중요합니까?
답변: 모델 모니터링은 프로덕션에서 모델 성능을 추적합니다.
- 모니터링 대상:
- 성능 메트릭: 정확도, 정밀도, 재현율
- 데이터 드리프트: 입력 분포 변경
- 개념 드리프트: 대상 관계 변경
- 시스템 메트릭: 대기 시간, 처리량, 오류
- 조치:
- 성능 저하 시 알림
- 새로운 데이터로 재훈련
- 새로운 모델 A/B 테스트
희소성: 흔함 난이도: 중간
13. 머신러닝 컨텍스트에서 A/B 테스트를 설명하세요.
답변: A/B 테스트는 두 버전(제어 대 처리)을 비교하여 어떤 버전이 더 나은 성능을 보이는지 확인합니다.
- 프로세스:
- 트래픽을 무작위로 분할
- 각 그룹에 다른 모델 제공
- 메트릭 수집
- 통계 테스트를 통해 승자 결정
- 메트릭: 전환율, 수익, 참여도
- 통계 테스트: t-테스트, 카이 제곱, 베이지안 방법
희소성: 흔함 난이도: 어려움
14. MLOps란 무엇이며 왜 중요합니까?
답변: MLOps(Machine Learning Operations, 머신러닝 운영)는 DevOps 원칙을 ML 시스템에 적용합니다.
- 구성 요소:
- 버전 관리: 코드, 데이터, 모델
- 자동화된 테스트: 단위, 통합, 모델 테스트
- CI/CD 파이프라인: 자동화된 배포
- 모니터링: 성능, 드리프트 감지
- 재현성: 실험 추적
- 도구: MLflow, Kubeflow, DVC, Weights & Biases


