주니어 데이터 분석가 면접 질문

주니어 데이터 분석가 면접 질문: 무엇을 준비할까

주니어 데이터 분석가 면접에서는 보통 지저분한 데이터를 정리할 수 있는지, 기본 SQL을 작성할 수 있는지, Excel로 데이터를 요약할 수 있는지, 명확한 대시보드를 만들 수 있는지, 비즈니스 영향을 복잡하지 않게 설명할 수 있는지를 봅니다. 문제를 발견하고, 데이터를 확인하고, 적절한 지표를 선택하고, 결과를 설명한 짧은 예시를 준비하세요.

이 가이드는 신입 분석가 역할에서 자주 나오는 실무형 질문에 집중합니다. Excel 조회 함수와 피벗, SQL 필터와 조인, Tableau 또는 Power BI 대시보드, 기초 통계, KPI, 이해관계자 커뮤니케이션을 다룹니다. 각 답변을 기본 틀로 사용하고 실제 프로젝트, 수업, 인턴 경험을 하나 덧붙이세요.

이 가이드 활용법

면접 전에 데이터 프로젝트 하나를 정하고 답변을 그 경험과 연결하세요. 면접관은 함수나 쿼리를 아는지만이 아니라 언제 쓰는지, 결과를 어떻게 검증하는지, 비기술 팀에 인사이트를 어떻게 설명하는지를 듣고 싶어 합니다.

Excel 기본 사항 (5문제)

1. 데이터 분석에 가장 중요한 Excel 함수는 무엇입니까?

답변: 모든 데이터 분석가가 알아야 할 필수 Excel 함수:

VLOOKUP/XLOOKUP: 테이블에서 값 조회
IF/IFS: 조건부 논리
SUMIF/SUMIFS: 조건부 합계
COUNTIF/COUNTIFS: 조건부 개수
피벗 테이블: 데이터 요약 및 분석
INDEX/MATCH: VLOOKUP보다 유연함
텍스트 함수: LEFT, RIGHT, MID, CONCATENATE
날짜 함수: TODAY, DATEDIF, EOMONTH

# VLOOKUP 예제
=VLOOKUP(A2, Products!A:C, 3, FALSE)

# SUMIFS 예제 (지역="East"이고 제품="Widget"인 판매 합계)
=SUMIFS(Sales!C:C, Sales!A:A, "East", Sales!B:B, "Widget")

# INDEX/MATCH 예제 (VLOOKUP보다 유연함)
=INDEX(Prices!C:C, MATCH(A2, Prices!A:A, 0))

# IF를 사용한 조건부 서식
=IF(B2>1000, "High", IF(B2>500, "Medium", "Low"))

희귀도: 매우 흔함 난이도: 쉬움

2. VLOOKUP과 INDEX/MATCH의 차이점을 설명하십시오.

답변:

VLOOKUP:
- 더 간단한 구문
- 오른쪽만 조회
- 유연성이 떨어짐
- 대규모 데이터 세트에서 더 느림
INDEX/MATCH:
- 더 복잡한 구문
- 왼쪽 또는 오른쪽을 조회 가능
- 더 유연함
- 더 빠른 성능
- 전체 행/열을 반환 가능

# VLOOKUP - A열에서 값 조회, C열에서 반환
=VLOOKUP(A2, A:C, 3, FALSE)

# INDEX/MATCH - 동일하지만 더 유연함
=INDEX(C:C, MATCH(A2, A:A, 0))

# INDEX/MATCH 장점: 왼쪽을 조회 가능
=INDEX(A:A, MATCH(C2, C:C, 0))  # VLOOKUP은 불가능

희귀도: 매우 흔함 난이도: 쉬움

3. 피벗 테이블을 만들고 사용하는 방법은 무엇입니까?

답변: 피벗 테이블은 대규모 데이터 세트를 빠르게 요약합니다.

단계:
1. 데이터 범위 선택
2. 삽입 → 피벗 테이블
3. 필드를 행, 열, 값으로 끌기
4. 필터 및 서식 적용
사용 사례: 지역별 판매 요약, 추세 분석, 보고서 작성

# 피벗 테이블 구조:
행: 제품 카테고리
열: 분기
값: 판매 합계
필터: 지역

# 피벗 테이블의 계산된 필드
수익 마진 = (수익 - 비용) / 수익

# 날짜 그룹화
날짜를 마우스 오른쪽 버튼으로 클릭 → 그룹 → 월/분기/년 선택

희귀도: 매우 흔함 난이도: 쉬움

4. 조건부 서식이란 무엇이며 언제 사용하시겠습니까?

답변: 조건부 서식은 셀 값에 따라 시각적 서식을 적용합니다.

사용 사례:
- 상위/하위 값 강조 표시
- 데이터 막대 또는 색상 척도 표시
- 중복 항목 식별
- 이상값 플래그 지정
- 히트 맵 생성

# 1000보다 큰 셀 강조 표시
범위 선택 → 조건부 서식 → 셀 강조 규칙 → 보다 큼

# 색상 척도 (그라데이션)
범위 선택 → 조건부 서식 → 색상 척도

# 데이터 막대
범위 선택 → 조건부 서식 → 데이터 막대

# 사용자 지정 수식
=AND($B2>1000, $C2="Active")

희귀도: 흔함 난이도: 쉬움

5. Excel에서 중복을 제거하고 누락된 데이터를 처리하는 방법은 무엇입니까?

답변: 정확한 분석을 위해서는 데이터 정리가 필수적입니다.

# 중복 제거
데이터 탭 → 중복 제거 → 열 선택

# 조건부 서식을 사용하여 중복 찾기
범위 선택 → 조건부 서식 → 셀 강조 규칙 → 중복 값

# 누락된 데이터 처리
# 옵션 1: 필터링 및 삭제
열 필터링 → (공백) 선택 취소 → 보이는 행 삭제

# 옵션 2: 평균으로 채우기
=IF(ISBLANK(A2), AVERAGE(A:A), A2)

# 옵션 3: 아래로 채우기
범위 선택 → Ctrl+D (Windows) 또는 Cmd+D (Mac)

# 공백 찾아서 바꾸기
Ctrl+H → 찾을 내용: (비워 둠) → 바꿀 내용: 0 또는 N/A

희귀도: 매우 흔함 난이도: 쉬움

SQL 기본 사항 (5문제)

6. 테이블에서 모든 열을 선택하는 SQL 쿼리를 작성하십시오.

답변: 기본 SELECT 문은 테이블에서 데이터를 검색합니다.

-- 모든 열 선택
SELECT * FROM employees;

-- 특정 열 선택
SELECT first_name, last_name, salary
FROM employees;

-- 별칭으로 선택
SELECT 
    first_name AS "First Name",
    last_name AS "Last Name",
    salary AS "Annual Salary"
FROM employees;

-- 고유 값 선택
SELECT DISTINCT department
FROM employees;

-- 결과 제한
SELECT * FROM employees
LIMIT 10;

희귀도: 매우 흔함 난이도: 쉬움

7. WHERE 절을 사용하여 데이터를 필터링하는 방법은 무엇입니까?

답변: WHERE 절은 조건에 따라 행을 필터링합니다.

-- 간단한 조건
SELECT * FROM employees
WHERE salary > 50000;

-- AND를 사용한 여러 조건
SELECT * FROM employees
WHERE department = 'Sales' AND salary > 60000;

-- OR를 사용한 여러 조건
SELECT * FROM employees
WHERE department = 'Sales' OR department = 'Marketing';

-- IN 연산자
SELECT * FROM employees
WHERE department IN ('Sales', 'Marketing', 'IT');

-- BETWEEN 연산자
SELECT * FROM employees
WHERE salary BETWEEN 50000 AND 80000;

-- LIKE 연산자 (패턴 일치)
SELECT * FROM employees
WHERE first_name LIKE 'J%';  -- J로 시작

-- IS NULL
SELECT * FROM employees
WHERE manager_id IS NULL;

-- NOT 연산자
SELECT * FROM employees
WHERE department NOT IN ('HR', 'Finance');

희귀도: 매우 흔함 난이도: 쉬움

8. JOIN 연산과 그 유형을 설명하십시오.

답변: JOIN은 여러 테이블의 데이터를 결합합니다.

INNER JOIN: 두 테이블에서 일치하는 행을 반환
LEFT JOIN: 왼쪽 테이블의 모든 행을 반환, 오른쪽 테이블에서 일치하는 행
RIGHT JOIN: 오른쪽 테이블의 모든 행을 반환, 왼쪽 테이블에서 일치하는 행
FULL OUTER JOIN: 두 테이블의 모든 행을 반환

-- INNER JOIN
SELECT e.first_name, e.last_name, d.department_name
FROM employees e
INNER JOIN departments d ON e.department_id = d.department_id;

-- LEFT JOIN (부서가 없는 경우에도 모든 직원)
SELECT e.first_name, e.last_name, d.department_name
FROM employees e
LEFT JOIN departments d ON e.department_id = d.department_id;

-- 여러 JOIN
SELECT 
    e.first_name,
    d.department_name,
    l.city
FROM employees e
INNER JOIN departments d ON e.department_id = d.department_id
INNER JOIN locations l ON d.location_id = l.location_id;

-- 자체 JOIN (직원과 관리자)
SELECT 
    e.first_name AS employee,
    m.first_name AS manager
FROM employees e
LEFT JOIN employees m ON e.manager_id = m.employee_id;

희귀도: 매우 흔함 난이도: 중간

9. GROUP BY 및 집계 함수를 사용하는 방법은 무엇입니까?

답변: GROUP BY는 행을 그룹화하고 집계 함수는 데이터를 요약합니다.

-- 부서별 직원 수 계산
SELECT department, COUNT(*) AS employee_count
FROM employees
GROUP BY department;

-- 부서별 평균 급여
SELECT 
    department,
    AVG(salary) AS avg_salary,
    MIN(salary) AS min_salary,
    MAX(salary) AS max_salary
FROM employees
GROUP BY department;

-- HAVING 절 (그룹 필터링)
SELECT department, AVG(salary) AS avg_salary
FROM employees
GROUP BY department
HAVING AVG(salary) > 60000;

-- 여러 그룹화 열
SELECT 
    department,
    job_title,
    COUNT(*) AS count,
    AVG(salary) AS avg_salary
FROM employees
GROUP BY department, job_title
ORDER BY department, avg_salary DESC;

-- 일반적인 집계 함수
-- COUNT, SUM, AVG, MIN, MAX, COUNT(DISTINCT)

희귀도: 매우 흔함 난이도: 중간

10. WHERE와 HAVING의 차이점은 무엇입니까?

답변:

WHERE: 그룹화하기 전에 행을 필터링
HAVING: 그룹화 후 그룹을 필터링
WHERE: 집계 함수를 사용할 수 없음
HAVING: 집계 함수를 사용할 수 있음

-- WHERE - 그룹화하기 전에 필터링
SELECT department, AVG(salary) AS avg_salary
FROM employees
WHERE salary > 40000  -- 개별 행 필터링
GROUP BY department;

-- HAVING - 그룹화 후 필터링
SELECT department, AVG(salary) AS avg_salary
FROM employees
GROUP BY department
HAVING AVG(salary) > 60000;  -- 그룹 필터링

-- 함께 사용
SELECT department, AVG(salary) AS avg_salary
FROM employees
WHERE hire_date > '2020-01-01'  -- 먼저 행 필터링
GROUP BY department
HAVING COUNT(*) > 5;  -- 그런 다음 그룹 필터링

-- 잘못된 예:
-- SELECT department FROM employees
-- WHERE COUNT(*) > 5;  -- 오류: WHERE에서 집계 함수를 사용할 수 없음

희귀도: 매우 흔함 난이도: 쉬움

데이터 시각화 (4문제)

11. 효과적인 데이터 시각화의 핵심 원칙은 무엇입니까?

답변: 좋은 시각화는 통찰력을 명확하게 전달합니다.

원칙:
- 적절한 차트 유형 선택 (비교에는 막대, 추세에는 선, 전체의 부분에는 원형)
- 단순하게 유지 (불필요한 요소 피하기)
- 적절한 색상 사용 (일관성, 접근성)
- 명확하게 레이블 지정 (제목, 축, 범례)
- 스토리텔링 (주요 통찰력 강조)
- 청중 고려 (기술 vs 비기술)

Loading diagram...

희귀도: 흔함 난이도: 쉬움

12. 막대 차트와 선 차트를 언제 사용하시겠습니까?

답변: 차트 유형마다 다른 목적을 수행합니다.

막대 차트:
- 범주 비교
- 이산 데이터
- 예: 지역별 판매, 제품 비교
선 차트:
- 시간 경과에 따른 추세 표시
- 연속 데이터
- 예: 월별 수익, 주가
기타 차트:
- 원형 차트: 전체의 부분 (자주 사용하지 않기)
- 산점도: 두 변수 간의 관계
- 히스토그램: 연속 데이터의 분포

희귀도: 흔함 난이도: 쉬움

13. Tableau란 무엇이며 주요 기능은 무엇입니까?

답변: Tableau는 선도적인 데이터 시각화 및 비즈니스 인텔리전스 도구입니다.

주요 기능:
- 드래그 앤 드롭 인터페이스 (코딩 필요 없음)
- 여러 데이터 소스에 연결 (데이터베이스, Excel, 클라우드)
- 대화형 대시보드
- 실시간 데이터 업데이트
- 계산된 필드 및 매개변수
- 공유 및 협업
일반적인 작업:
- 워크시트 생성 (개별 시각화)
- 대시보드 구축 (여러 시각화)
- 필터 및 매개변수 적용
- 계산된 필드 생성
- Tableau Server/Online에 게시

희귀도: 매우 흔함 난이도: 쉬움

14. Tableau와 Power BI의 차이점은 무엇입니까?

답변: 두 도구 모두 보고서와 대시보드를 만드는 데 쓰이지만, 면접에서는 팀과 데이터 환경에 맞게 선택할 수 있음을 보여주는 것이 중요합니다.

Tableau: 유연한 시각적 탐색, 대시보드, 계산 필드, 매개변수, 인터랙티브 뷰에 강합니다. 여러 데이터 소스를 시각적으로 탐색해야 할 때 잘 맞습니다.
Power BI: Excel, Fabric, Microsoft 365, Power Query, 의미 체계 모델, DAX 등 Microsoft 환경과 잘 맞습니다. 관리형 보고와 반복적인 비즈니스 대시보드에 적합한 경우가 많습니다.
답변 방식: 어느 하나가 항상 더 낫다고 말하지 마세요. 사용자, 기존 스택, 데이터 모델 복잡도, 새로 고침, 권한, 유지보수 담당자를 비교하세요.

좋은 주니어 답변 예시: “기본 대시보드는 두 도구 모두로 만들 수 있습니다. 회사가 Microsoft 중심이면 Power BI를, 더 유연한 시각적 탐색이 필요하면 Tableau를 선택하겠습니다. 두 경우 모두 비즈니스 질문을 먼저 확인하고, 데이터를 정리하고, 지표를 정의하고, 게시 전에 합계를 검증하겠습니다.”

통계 및 분석 (4문제)

15. 알고 있는 중심 경향 측정값은 무엇입니까?

답변: 중심 경향 측정값은 데이터 세트의 중심을 설명합니다.

평균: 평균 (합계 / 개수)
- 이상치에 민감함
- 정규 분포 데이터에 사용
중앙값: 정렬했을 때 중간 값
- 이상치에 강건함
- 치우친 데이터에 사용
최빈값: 가장 빈번한 값
- 범주형 데이터에 사용

import numpy as np

data = [1, 2, 2, 3, 4, 5, 100]

mean = np.mean(data)  # 16.71 (이상치 100의 영향)
median = np.median(data)  # 3 (이상치의 영향 없음)
# mode = 2 (가장 빈번함)

print(f"Mean: {mean}")
print(f"Median: {median}")

희귀도: 매우 흔함 난이도: 쉬움

16. 데이터 세트에서 이상값을 식별하는 방법은 무엇입니까?

답변: 이상값은 다른 관측값과 크게 다른 데이터 포인트입니다.

방법:
- 시각적: 상자 그림, 산점도
- 통계적:
  - IQR 방법 (Q1/Q3에서 1.5 × IQR 초과)
  - Z-점수 (|z| > 3)
  - 표준 편차 (2-3 표준 편차 초과)

import numpy as np

data = np.array([10, 12, 13, 12, 11, 14, 13, 15, 100, 12])

# IQR 방법
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = data[(data < lower_bound) | (data > upper_bound)]
print(f"Outliers: {outliers}")  # [100]

# Z-점수 방법
mean = np.mean(data)
std = np.std(data)
z_scores = np.abs((data - mean) / std)
outliers_z = data[z_scores > 3]
print(f"Outliers (Z-score): {outliers_z}")

희귀도: 흔함 난이도: 중간

17. 상관관계와 인과관계의 차이점은 무엇입니까?

답변:

상관관계: 변수 간의 통계적 관계
- 상관 계수로 측정 (-1에서 1)
- 인과관계를 의미하지 않음
인과관계: 한 변수가 다른 변수의 변화를 직접적으로 유발
- 통제된 실험 필요
- 상관관계는 필요하지만 충분하지 않음

예시:

아이스크림 판매량과 익사 사망자 수는 상관관계가 있음 (둘 다 여름에 증가)
그러나 아이스크림이 익사를 유발하지 않음 (교란 변수: 온도)

-- SQL에서 상관관계 계산 (단순화)
SELECT 
    CORR(sales, temperature) AS correlation
FROM daily_data;

-- 양의 상관관계: 둘 다 함께 증가
-- 음의 상관관계: 하나가 증가하면 다른 하나는 감소
-- 0 상관관계: 관계 없음

희귀도: 매우 흔함 난이도: 쉬움

18. 백분율 변화를 계산하는 방법은 무엇입니까?

답변: 백분율 변화는 두 값 사이의 상대적 변화를 측정합니다.

# 공식
백분율 변화 = ((새 값 - 이전 값) / 이전 값) × 100

# Excel 수식
=(B2-A2)/A2*100

# 예시:
이전 값: 100
새 값: 120
변화: (120-100)/100 = 0.20 = 20% 증가

# 전년 대비 성장률
=(Sales_2023 - Sales_2022) / Sales_2022 * 100

-- SQL 백분율 변화
SELECT 
    year,
    revenue,
    LAG(revenue) OVER (ORDER BY year) AS prev_year_revenue,
    ((revenue - LAG(revenue) OVER (ORDER BY year)) / 
     LAG(revenue) OVER (ORDER BY year) * 100) AS pct_change
FROM annual_sales;

희귀도: 매우 흔함 난이도: 쉬움

비즈니스 인텔리전스 및 보고 (2문제)

19. KPI란 무엇이며 올바른 KPI를 선택하는 방법은 무엇입니까?

답변: KPI (핵심 성과 지표)는 목표가 얼마나 효과적으로 달성되고 있는지를 보여주는 측정 가능한 값입니다.

좋은 KPI의 특징:
- 구체적: 명확하고 잘 정의됨
- 측정 가능: 정량화 가능
- 달성 가능: 현실적
- 관련성: 비즈니스 목표와 일치
- 시간 제한: 시간 프레임이 있음
예시:
- 판매: 월별 수익, 전환율
- 마케팅: 고객 확보 비용, ROI
- 운영: 주문 처리 시간, 오류율
- 고객: 만족도 점수, 유지율

희귀도: 흔함 난이도: 쉬움

20. 비기술적 이해 관계자에게 데이터 통찰력을 제시하는 방법은 무엇입니까?

답변: 효과적인 의사 소통은 데이터 분석가에게 매우 중요합니다.

모범 사례:
- 결론부터 시작 (알아야 할 내용)
- 간단한 시각화 사용 (복잡한 차트 피하기)
- 스토리텔링 (맥락, 통찰력, 권장 사항)
- 전문 용어 피하기 (기술 용어 설명)
- 비즈니스 영향에 집중 (수익, 비용, 효율성)
- 실행 가능한 권장 사항 제공
- 질문에 대비
구조:
1. 요약
2. 주요 결과
3. 지원 데이터/시각화
4. 권장 사항
5. 다음 단계

희귀도: 흔함 난이도: 중간

최신 커리어 조언

주니어 데이터 분석가 면접 질문: SQL, Excel, BI

주니어 데이터 분석가 면접 질문: 무엇을 준비할까

이 가이드 활용법

Excel 기본 사항 (5문제)

1. 데이터 분석에 가장 중요한 Excel 함수는 무엇입니까?

2. VLOOKUP과 INDEX/MATCH의 차이점을 설명하십시오.

3. 피벗 테이블을 만들고 사용하는 방법은 무엇입니까?

4. 조건부 서식이란 무엇이며 언제 사용하시겠습니까?

5. Excel에서 중복을 제거하고 누락된 데이터를 처리하는 방법은 무엇입니까?

SQL 기본 사항 (5문제)

6. 테이블에서 모든 열을 선택하는 SQL 쿼리를 작성하십시오.

7. WHERE 절을 사용하여 데이터를 필터링하는 방법은 무엇입니까?

8. JOIN 연산과 그 유형을 설명하십시오.

9. GROUP BY 및 집계 함수를 사용하는 방법은 무엇입니까?

10. WHERE와 HAVING의 차이점은 무엇입니까?

데이터 시각화 (4문제)

11. 효과적인 데이터 시각화의 핵심 원칙은 무엇입니까?

12. 막대 차트와 선 차트를 언제 사용하시겠습니까?

13. Tableau란 무엇이며 주요 기능은 무엇입니까?

14. Tableau와 Power BI의 차이점은 무엇입니까?

통계 및 분석 (4문제)

15. 알고 있는 중심 경향 측정값은 무엇입니까?

16. 데이터 세트에서 이상값을 식별하는 방법은 무엇입니까?

17. 상관관계와 인과관계의 차이점은 무엇입니까?

18. 백분율 변화를 계산하는 방법은 무엇입니까?

비즈니스 인텔리전스 및 보고 (2문제)

19. KPI란 무엇이며 올바른 KPI를 선택하는 방법은 무엇입니까?

20. 비기술적 이해 관계자에게 데이터 통찰력을 제시하는 방법은 무엇입니까?

실제로 효과가 있는 주간 커리어 팁

실제로 효과가 있는 주간 커리어 팁

관련 게시물

주니어 데이터 사이언티스트 면접 질문: Python, SQL, 통계, ML

주니어 네트워크 엔지니어 면접 질문과 답변

주니어 Android 개발자 면접 질문과 답변

채용 담당자에게 눈에 띄고 꿈의 직장을 얻으세요

이 게시물 공유

이력서 작성 시간을 90% 단축하세요