시니어 데이터 분석가 면접 질문

소개

시니어 데이터 분석가 면접은 SQL 문법만 보지 않습니다. 비즈니스 문제를 구조화하고, 적절한 지표를 고르며, 효율적인 SQL을 작성하고, 데이터 품질을 검증하고, 실험 결과를 설명하며, 대시보드를 실제 의사결정으로 연결할 수 있는지를 확인합니다.

이 가이드는 시니어다운 답변을 연습하는 데 초점을 둡니다. 가정을 명확히 말하고, 트레이드오프를 설명하며, 분석을 비즈니스 임팩트와 연결하고, 데이터가 완벽하지 않을 때 다음에 무엇을 확인할지까지 말해보세요.

고급 SQL (6개 질문)

1. 윈도우 함수를 설명하고 예를 들어보세요.

답변: 윈도우 함수는 결과를 축소하지 않고 현재 행과 관련된 행 집합에 걸쳐 계산을 수행합니다.

일반적인 윈도우 함수:
- ROW_NUMBER(): 고유한 순차 번호
- RANK(): 동점 항목에 대한 간격이 있는 순위
- DENSE_RANK(): 간격이 없는 순위
- LAG/LEAD(): 이전/다음 행에 액세스
- SUM/AVG/COUNT() OVER(): 누적 합계/평균/개수

-- ROW_NUMBER: 고유한 번호 할당
SELECT 
    employee_id,
    first_name,
    salary,
    ROW_NUMBER() OVER (ORDER BY salary DESC) AS row_num
FROM employees;

-- RANK: 각 부서 내에서 급여별로 직원 순위 지정
SELECT 
    department,
    employee_id,
    salary,
    RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS dept_rank
FROM employees;

-- LAG: 이전 행과 비교
SELECT 
    year,
    revenue,
    LAG(revenue) OVER (ORDER BY year) AS prev_year_revenue,
    revenue - LAG(revenue) OVER (ORDER BY year) AS revenue_change
FROM annual_sales;

-- 누적 합계
SELECT 
    order_date,
    amount,
    SUM(amount) OVER (ORDER BY order_date) AS running_total
FROM orders;

-- 이동 평균 (최근 3개월)
SELECT 
    month,
    sales,
    AVG(sales) OVER (
        ORDER BY month 
        ROWS BETWEEN 2 PRECEDING AND CURRENT ROW
    ) AS moving_avg_3m
FROM monthly_sales;

희귀성: 매우 흔함 난이도: 어려움

2. 느린 SQL 쿼리를 어떻게 최적화하나요?

답변: 쿼리 최적화는 성능을 향상시키고 리소스 사용량을 줄입니다.

기술:
- 인덱싱: 자주 쿼리되는 열에 인덱스 생성
- SELECT * 피하기: 필요한 열만 선택
- WHERE 효율적으로 사용: 초기에 필터링
- JOIN 최적화: 인덱싱된 열에서 조인
- 서브쿼리 피하기: 대신 JOIN 또는 CTE 사용
- EXPLAIN 사용: 쿼리 실행 계획 분석
- 테이블 파티셔닝: 매우 큰 테이블의 경우
- 효율적으로 집계: 적절한 GROUP BY 사용

-- 나쁜 예: SELECT * 및 서브쿼리
SELECT * FROM orders
WHERE customer_id IN (
    SELECT customer_id FROM customers WHERE country = 'USA'
);

-- 좋은 예: 특정 열 및 JOIN
SELECT o.order_id, o.order_date, o.amount
FROM orders o
INNER JOIN customers c ON o.customer_id = c.customer_id
WHERE c.country = 'USA';

-- EXPLAIN을 사용하여 분석
EXPLAIN SELECT * FROM orders WHERE order_date > '2023-01-01';

-- 더 나은 성능을 위해 인덱스 생성
CREATE INDEX idx_order_date ON orders(order_date);

-- 커버링 인덱스 사용 (필요한 모든 열 포함)
CREATE INDEX idx_orders_covering ON orders(customer_id, order_date, amount);

-- 큰 테이블 파티셔닝
CREATE TABLE orders_2023 PARTITION OF orders
FOR VALUES FROM ('2023-01-01') TO ('2024-01-01');

희귀성: 매우 흔함 난이도: 어려움

3. CTE (Common Table Expressions)는 무엇이며 언제 사용하나요?

답변: CTE는 쿼리 실행 중에만 존재하는 임시 명명된 결과 집합을 만듭니다.

장점:
- 가독성 향상
- 재귀 활성화
- 동일한 쿼리에서 재사용
- 복잡한 로직에 대해 서브쿼리보다 나음

-- 기본 CTE
WITH high_earners AS (
    SELECT employee_id, first_name, salary
    FROM employees
    WHERE salary > 80000
)
SELECT * FROM high_earners
WHERE first_name LIKE 'J%';

-- 다중 CTE
WITH 
sales_summary AS (
    SELECT 
        product_id,
        SUM(quantity) AS total_quantity,
        SUM(amount) AS total_revenue
    FROM sales
    GROUP BY product_id
),
product_info AS (
    SELECT product_id, product_name, category
    FROM products
)
SELECT 
    p.product_name,
    p.category,
    s.total_quantity,
    s.total_revenue
FROM sales_summary s
JOIN product_info p ON s.product_id = p.product_id
ORDER BY s.total_revenue DESC;

-- 재귀 CTE (조직 계층)
WITH RECURSIVE employee_hierarchy AS (
    -- 기본 케이스: 최상위 직원
    SELECT employee_id, first_name, manager_id, 1 AS level
    FROM employees
    WHERE manager_id IS NULL
    
    UNION ALL
    
    -- 재귀 케이스: 이전 레벨에 보고하는 직원
    SELECT e.employee_id, e.first_name, e.manager_id, eh.level + 1
    FROM employees e
    JOIN employee_hierarchy eh ON e.manager_id = eh.employee_id
)
SELECT * FROM employee_hierarchy
ORDER BY level, employee_id;

희귀성: 흔함 난이도: 중간

4. UNION과 UNION ALL의 차이점을 설명하세요.

답변: 둘 다 여러 SELECT 문의 결과를 결합합니다.

UNION:
- 중복 행 제거
- 더 느림 (정렬/비교 필요)
- 중복을 제거해야 하는 경우 사용
UNION ALL:
- 중복을 포함한 모든 행 유지
- 더 빠름 (중복 제거 없음)
- 중복이 허용되거나 불가능한 경우 사용

-- UNION - 중복 제거
SELECT customer_id FROM orders_2022
UNION
SELECT customer_id FROM orders_2023;
-- 결과: 두 해의 고유한 고객 ID

-- UNION ALL - 중복 유지
SELECT customer_id FROM orders_2022
UNION ALL
SELECT customer_id FROM orders_2023;
-- 결과: 모든 고객 ID (중복 가능)

-- 성능 비교
-- 중복이 없다는 것을 알면 UNION ALL이 더 빠릅니다.
SELECT 'Q1' AS quarter, revenue FROM q1_sales
UNION ALL
SELECT 'Q2', revenue FROM q2_sales
UNION ALL
SELECT 'Q3', revenue FROM q3_sales
UNION ALL
SELECT 'Q4', revenue FROM q4_sales;

희귀성: 흔함 난이도: 쉬움

5. SQL에서 NULL 값을 어떻게 처리하나요?

답변: NULL은 누락되거나 알 수 없는 데이터를 나타내며 특별한 처리가 필요합니다.

-- NULL 확인
SELECT * FROM employees
WHERE manager_id IS NULL;  -- Not: = NULL

-- COALESCE: 첫 번째 NULL이 아닌 값 반환
SELECT 
    first_name,
    COALESCE(middle_name, '') AS middle_name,
    COALESCE(bonus, 0) AS bonus
FROM employees;

-- NULLIF: 값이 같으면 NULL 반환
SELECT 
    product_name,
    NULLIF(discount, 0) AS discount  -- 할인율이 0이면 NULL
FROM products;

-- 계산에서 NULL (NULL 전파)
SELECT 
    salary,
    bonus,
    salary + bonus AS total  -- 보너스가 NULL이면 NULL
FROM employees;

-- 집계에서 NULL 처리
SELECT 
    department,
    COUNT(*) AS total_employees,
    COUNT(manager_id) AS employees_with_manager,  -- NULL 제외
    AVG(COALESCE(bonus, 0)) AS avg_bonus
FROM employees
GROUP BY department;

-- JOIN에서 NULL
SELECT e.first_name, d.department_name
FROM employees e
LEFT JOIN departments d ON e.department_id = d.department_id
WHERE d.department_id IS NULL;  -- 부서가 없는 직원

희귀성: 매우 흔함 난이도: 중간

6. 서브쿼리는 무엇이며 언제 JOIN 대신 사용하나요?

답변: 서브쿼리는 다른 쿼리 내에 중첩된 쿼리입니다.

유형:
- 스칼라: 단일 값 반환
- 행: 단일 행 반환
- 테이블: 여러 행/열 반환
다음 경우 서브쿼리 사용:
- 집계된 데이터를 기반으로 필터링해야 하는 경우
- 존재 여부 확인 (EXISTS)
- 집계된 값과 비교
다음 경우 JOIN 사용:
- 여러 테이블의 열이 필요한 경우
- 더 나은 성능 (일반적으로)

-- 스칼라 서브쿼리
SELECT first_name, salary
FROM employees
WHERE salary > (SELECT AVG(salary) FROM employees);

-- 상관 서브쿼리 (각 행에 대해 실행)
SELECT e1.first_name, e1.salary
FROM employees e1
WHERE e1.salary > (
    SELECT AVG(e2.salary)
    FROM employees e2
    WHERE e2.department = e1.department
);

-- EXISTS (존재 여부 확인에 효율적)
SELECT c.customer_name
FROM customers c
WHERE EXISTS (
    SELECT 1 FROM orders o
    WHERE o.customer_id = c.customer_id
    AND o.order_date > '2023-01-01'
);

-- 서브쿼리와 함께 IN 사용
SELECT product_name
FROM products
WHERE product_id IN (
    SELECT DISTINCT product_id
    FROM sales
    WHERE sale_date > '2023-01-01'
);

-- JOIN 대안 (종종 더 빠름)
SELECT DISTINCT p.product_name
FROM products p
INNER JOIN sales s ON p.product_id = s.product_id
WHERE s.sale_date > '2023-01-01';

희귀성: 매우 흔함 난이도: 중간

통계 분석 (4개 질문)

7. 코호트 분석을 어떻게 수행하나요?

답변: 코호트 분석은 공유된 특성별로 사용자를 그룹화하고 시간 경과에 따른 행동을 추적합니다.

일반적인 사용 사례:
- 고객 유지
- 사용자 참여
- 획득 기간별 수익 추세

-- 코호트 분석: 월별 유지율
WITH user_cohorts AS (
    SELECT 
        user_id,
        DATE_TRUNC('month', first_purchase_date) AS cohort_month
    FROM users
),
user_activities AS (
    SELECT 
        user_id,
        DATE_TRUNC('month', activity_date) AS activity_month
    FROM activities
)
SELECT 
    uc.cohort_month,
    ua.activity_month,
    COUNT(DISTINCT ua.user_id) AS active_users,
    COUNT(DISTINCT ua.user_id) * 100.0 / 
        COUNT(DISTINCT uc.user_id) AS retention_rate
FROM user_cohorts uc
LEFT JOIN user_activities ua ON uc.user_id = ua.user_id
GROUP BY uc.cohort_month, ua.activity_month
ORDER BY uc.cohort_month, ua.activity_month;

-- 수익 코호트 분석
SELECT 
    cohort_month,
    months_since_cohort,
    SUM(revenue) AS cohort_revenue,
    AVG(revenue) AS avg_revenue_per_user
FROM (
    SELECT 
        DATE_TRUNC('month', u.signup_date) AS cohort_month,
        EXTRACT(MONTH FROM AGE(o.order_date, u.signup_date)) AS months_since_cohort,
        o.revenue,
        u.user_id
    FROM users u
    JOIN orders o ON u.user_id = o.user_id
) cohort_data
GROUP BY cohort_month, months_since_cohort
ORDER BY cohort_month, months_since_cohort;

희귀성: 흔함 난이도: 어려움

8. A/B 테스트 분석 및 통계적 유의성을 설명하세요.

답변: A/B 테스트는 두 버전을 비교하여 어떤 것이 더 나은 성능을 보이는지 확인합니다.

주요 지표:
- 전환율
- 통계적 유의성 (p-value < 0.05)
- 신뢰 구간
- 표본 크기
프로세스:
1. 가설 정의
2. 표본 크기 결정
3. 테스트 실행
4. 결과 분석
5. 의사 결정

-- A/B 테스트 결과 분석
WITH test_results AS (
    SELECT 
        variant,
        COUNT(*) AS visitors,
        SUM(CASE WHEN converted = 1 THEN 1 ELSE 0 END) AS conversions,
        SUM(CASE WHEN converted = 1 THEN 1 ELSE 0 END) * 100.0 / COUNT(*) AS conversion_rate
    FROM ab_test_data
    GROUP BY variant
)
SELECT 
    variant,
    visitors,
    conversions,
    ROUND(conversion_rate, 2) AS conversion_rate_pct,
    -- 리프트 계산
    ROUND((conversion_rate - LAG(conversion_rate) OVER (ORDER BY variant)) / 
          LAG(conversion_rate) OVER (ORDER BY variant) * 100, 2) AS lift_pct
FROM test_results;

-- 통계적 유의성 계산 (카이 제곱 검정)
-- 일반적으로 Python/R에서 수행되지만 SQL에서 구성 요소 계산 가능
SELECT 
    variant,
    conversions,
    visitors - conversions AS non_conversions,
    visitors
FROM ab_test_data
GROUP BY variant;

희귀성: 흔함 난이도: 어려움

9. 백분위수를 계산하고 해석하는 방법을 설명하세요.

답변: 백분위수는 데이터를 100개의 동일한 부분으로 나눕니다.

일반적인 백분위수:
- 25번째 (Q1), 50번째 (중앙값/Q2), 75번째 (Q3)
- 이상치 탐지를 위한 90번째, 95번째, 99번째
사용 사례:
- 급여 벤치마킹
- 성과 지표
- SLA 모니터링

-- 백분위수 계산
SELECT 
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY salary) AS p25,
    PERCENTILE_CONT(0.50) WITHIN GROUP (ORDER BY salary) AS median,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY salary) AS p75,
    PERCENTILE_CONT(0.90) WITHIN GROUP (ORDER BY salary) AS p90,
    PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY salary) AS p95
FROM employees;

-- 그룹별 백분위수
SELECT 
    department,
    PERCENTILE_CONT(0.50) WITHIN GROUP (ORDER BY salary) AS median_salary,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY salary) AS p75_salary
FROM employees
GROUP BY department;

-- 각 행에 백분위수 순위 할당
SELECT 
    employee_id,
    salary,
    PERCENT_RANK() OVER (ORDER BY salary) AS percentile_rank,
    NTILE(4) OVER (ORDER BY salary) AS quartile
FROM employees;

-- 이상치 탐지를 위한 사분위수 범위 (IQR)
WITH quartiles AS (
    SELECT 
        PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY salary) AS q1,
        PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY salary) AS q3
    FROM employees
)
SELECT 
    e.*,
    CASE 
        WHEN e.salary < q.q1 - 1.5 * (q.q3 - q.q1) THEN 'Low Outlier'
        WHEN e.salary > q.q3 + 1.5 * (q.q3 - q.q1) THEN 'High Outlier'
        ELSE 'Normal'
    END AS outlier_status
FROM employees e
CROSS JOIN quartiles q;

희귀성: 흔함 난이도: 중간

10. 시계열 분석이란 무엇이며 계절성을 어떻게 처리하나요?

답변: 시계열 분석은 패턴을 식별하기 위해 시간 경과에 따라 수집된 데이터 포인트를 검사합니다.

구성 요소:
- 추세: 장기적인 방향
- 계절성: 규칙적인 패턴 (매일, 매주, 매년)
- 순환: 불규칙한 변동
- 무작위: 노이즈
계절성 처리:
- 이동 평균
- 전년 대비 비교
- 계절 분해
- 계절 조정

-- 이동 평균 (계절성 완화)
SELECT 
    date,
    sales,
    AVG(sales) OVER (
        ORDER BY date 
        ROWS BETWEEN 6 PRECEDING AND CURRENT ROW
    ) AS moving_avg_7day
FROM daily_sales;

-- 전년 대비 비교
SELECT 
    EXTRACT(MONTH FROM sale_date) AS month,
    EXTRACT(YEAR FROM sale_date) AS year,
    SUM(amount) AS monthly_sales,
    LAG(SUM(amount), 12) OVER (ORDER BY sale_date) AS same_month_last_year,
    (SUM(amount) - LAG(SUM(amount), 12) OVER (ORDER BY sale_date)) / 
        LAG(SUM(amount), 12) OVER (ORDER BY sale_date) * 100 AS yoy_growth
FROM sales
GROUP BY EXTRACT(MONTH FROM sale_date), EXTRACT(YEAR FROM sale_date);

-- 계절 지수 계산
WITH monthly_avg AS (
    SELECT 
        EXTRACT(MONTH FROM date) AS month,
        AVG(sales) AS avg_sales
    FROM daily_sales
    GROUP BY EXTRACT(MONTH FROM date)
),
overall_avg AS (
    SELECT AVG(sales) AS overall_avg
    FROM daily_sales
)
SELECT 
    m.month,
    m.avg_sales,
    o.overall_avg,
    m.avg_sales / o.overall_avg AS seasonal_index
FROM monthly_avg m
CROSS JOIN overall_avg o
ORDER BY m.month;

희귀성: 중간 난이도: 어려움

데이터 모델링 & ETL (4개 질문)

11. 스타 스키마와 스노우플레이크 스키마를 설명하세요.

답변: 둘 다 데이터 웨어하우스 설계 패턴입니다.

Loading diagram...

스타 스키마:
- 비정규화된 차원 테이블로 둘러싸인 팩트 테이블
- 간단한 쿼리 (더 적은 조인)
- 더 빠른 쿼리 성능
- 더 많은 저장 공간 (중복 데이터)
스노우플레이크 스키마:
- 정규화된 차원 테이블
- 더 적은 저장 공간 (중복 없음)
- 더 복잡한 쿼리 (더 많은 조인)
- 더 느린 쿼리 성능

희귀성: 흔함 난이도: 중간

12. ETL이란 무엇이며 ETL 파이프라인을 어떻게 설계하나요?

답변: ETL (Extract, Transform, Load)은 소스에서 대상으로 데이터를 이동합니다.

추출: 소스 (데이터베이스, API, 파일)에서 데이터 가져오기
변환: 정리, 유효성 검사, 집계, 보강
로드: 대상 (데이터 웨어하우스, 데이터베이스)에 삽입
설계 고려 사항:
- 증분 vs 전체 로드
- 오류 처리 및 로깅
- 데이터 유효성 검사
- 성능 최적화
- 스케줄링 및 오케스트레이션

-- 증분 로드 예
-- 추출: 새/업데이트된 레코드 가져오기
CREATE TEMP TABLE staging_customers AS
SELECT *
FROM source_customers
WHERE updated_at > (
    SELECT MAX(last_updated) 
    FROM target_customers
);

-- 변환: 정리 및 표준화
UPDATE staging_customers
SET 
    email = LOWER(TRIM(email)),
    phone = REGEXP_REPLACE(phone, '[^0-9]', '', 'g'),
    country = UPPER(country);

-- 로드: 대상에 업데이트 삽입
INSERT INTO target_customers
SELECT * FROM staging_customers
ON CONFLICT (customer_id) 
DO UPDATE SET
    email = EXCLUDED.email,
    phone = EXCLUDED.phone,
    updated_at = EXCLUDED.updated_at;

-- ETL 실행 로그
INSERT INTO etl_log (table_name, records_processed, run_date)
VALUES ('customers', (SELECT COUNT(*) FROM staging_customers), CURRENT_TIMESTAMP);

희귀성: 매우 흔함 난이도: 어려움

13. 데이터 품질을 어떻게 보장하나요?

답변: 데이터 품질은 데이터가 정확하고 완전하며 신뢰할 수 있는지 확인합니다.

차원:
- 정확성: 올바른 값
- 완전성: 누락된 데이터 없음
- 일관성: 시스템 전체에서 동일
- 적시성: 최신 정보
- 유효성: 규칙 준수
기술:
- 데이터 유효성 검사 규칙
- 자동화된 테스트
- 데이터 프로파일링
- 이상 탐지
- 정기 감사

-- 데이터 품질 검사
-- 1. 필수 필드의 NULL 확인
SELECT COUNT(*) AS null_emails
FROM customers
WHERE email IS NULL;

-- 2. 중복 확인
SELECT email, COUNT(*) AS duplicate_count
FROM customers
GROUP BY email
HAVING COUNT(*) > 1;

-- 3. 잘못된 형식 확인
SELECT COUNT(*) AS invalid_emails
FROM customers
WHERE email NOT LIKE '%@%.%';

-- 4. 참조 무결성 확인
SELECT COUNT(*) AS orphaned_orders
FROM orders o
LEFT JOIN customers c ON o.customer_id = c.customer_id
WHERE c.customer_id IS NULL;

-- 5. 이상치 확인
SELECT COUNT(*) AS outlier_count
FROM orders
WHERE amount < 0 OR amount > 100000;

-- 6. 데이터 최신 상태 확인
SELECT 
    MAX(updated_at) AS last_update,
    EXTRACT(EPOCH FROM (CURRENT_TIMESTAMP - MAX(updated_at))) / 3600 AS hours_since_update
FROM customers;

-- 데이터 품질 대시보드 생성
CREATE VIEW data_quality_metrics AS
SELECT 
    'customers' AS table_name,
    COUNT(*) AS total_records,
    SUM(CASE WHEN email IS NULL THEN 1 ELSE 0 END) AS null_emails,
    SUM(CASE WHEN email NOT LIKE '%@%.%' THEN 1 ELSE 0 END) AS invalid_emails,
    MAX(updated_at) AS last_updated
FROM customers;

희귀성: 매우 흔함 난이도: 중간

14. 데이터 정규화란 무엇이며 언제 비정규화하나요?

답변:

정규화: 중복을 줄이기 위해 데이터를 구성
- 1NF, 2NF, 3NF, BCNF
- 장점: 데이터 무결성, 더 적은 저장 공간
- 단점: 더 많은 조인, 더 느린 쿼리
비정규화: 의도적으로 중복 추가
- 장점: 더 빠른 쿼리, 더 간단한 SQL
- 단점: 더 많은 저장 공간, 업데이트 이상
- 사용 대상: 데이터 웨어하우스, 보고, 읽기 위주 시스템

-- 정규화됨 (3NF)
-- Orders 테이블
CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    product_id INT,
    quantity INT
);

-- 보고를 위해 조인이 필요
SELECT 
    c.customer_name,
    p.product_name,
    o.quantity
FROM orders o
JOIN customers c ON o.customer_id = c.customer_id
JOIN products p ON o.product_id = p.product_id;

-- 비정규화됨 (보고용)
CREATE TABLE orders_denormalized (
    order_id INT PRIMARY KEY,
    customer_id INT,
    customer_name VARCHAR(100),  -- 비정규화됨
    customer_email VARCHAR(100),  -- 비정규화됨
    product_id INT,
    product_name VARCHAR(100),  -- 비정규화됨
    product_category VARCHAR(50),  -- 비정규화됨
    quantity INT,
    unit_price DECIMAL(10,2)  -- 비정규화됨
);

-- 더 간단하고 빠른 쿼리
SELECT customer_name, product_name, quantity
FROM orders_denormalized;

희귀성: 흔함 난이도: 중간

대시보드 & 시각화 (3개 질문)

15. 효과적인 대시보드를 어떻게 설계하나요?

답변: 효과적인 대시보드는 한눈에 실행 가능한 통찰력을 제공합니다.

원칙:
- 청중 파악: 임원 vs 분석가
- KPI에 집중: 가장 중요한 지표 먼저
- 적절한 시각화 사용: 데이터 유형에 맞는 차트
- 일관성 유지: 색상, 글꼴, 레이아웃
- 상호 작용 활성화: 필터, 드릴다운
- 성능 최적화: 사전 집계 데이터
- 스토리텔링: 논리적 흐름
레이아웃:
- 상단: 주요 지표/KPI
- 중간: 추세 및 비교
- 하단: 세부 정보 및 분석

희귀성: 매우 흔함 난이도: 중간

16. 대시보드 성능을 어떻게 최적화하나요?

답변: 느린 대시보드는 사용자를 좌절시키고 채택률을 낮춥니다.

최적화 기술:
- 데이터 집계: 지표 사전 계산
- 구체화된 뷰: 쿼리 결과 저장
- 증분 새로 고침: 새 데이터만 업데이트
- 데이터 제한: 필터, 날짜 범위 사용
- 쿼리 최적화: 인덱스, 효율적인 SQL
- 데이터 추출: 더 빠른 데이터 소스로 이동
- 시각화 축소: 대시보드당 차트 수 줄이기
- 추출 사용: Tableau/Power BI 추출

-- 대시보드를 위한 구체화된 뷰 생성
CREATE MATERIALIZED VIEW daily_sales_summary AS
SELECT 
    DATE_TRUNC('day', order_date) AS date,
    product_category,
    region,
    COUNT(*) AS order_count,
    SUM(amount) AS total_revenue,
    AVG(amount) AS avg_order_value
FROM orders
GROUP BY DATE_TRUNC('day', order_date), product_category, region;

-- 더 빠른 필터링을 위한 인덱스 생성
CREATE INDEX idx_daily_sales_date ON daily_sales_summary(date);

-- 구체화된 뷰 새로 고침 (예약된 작업)
REFRESH MATERIALIZED VIEW CONCURRENTLY daily_sales_summary;

-- 대시보드 쿼리 (빠르고 사전 집계된 데이터 사용)
SELECT * FROM daily_sales_summary
WHERE date >= CURRENT_DATE - INTERVAL '30 days'
AND region = 'North America';

희귀성: 흔함 난이도: 중간

17. 다양한 비즈니스 기능을 위해 어떤 지표를 추적하나요?

답변: 부서마다 다른 지표가 필요합니다.

영업:
- 수익, 전환율, 평균 거래 규모
- 영업 주기 길이, 성공률
- 고객 확보 비용 (CAC)
마케팅:
- ROI, 리드당 비용, 리드 전환율
- 웹사이트 트래픽, 참여율
- 고객 생애 가치 (CLV)
운영:
- 주문 처리 시간, 오류율
- 재고 회전율, 용량 활용률
- 정시 배송률
재무:
- 이윤, 현금 흐름, 소진율
- 수익 성장, EBITDA
- 미수금 노령화
고객 성공:
- 고객 만족도 (CSAT), 순 추천 지수 (NPS)
- 이탈률, 유지율
- 지원 티켓 해결 시간

희귀성: 흔함 난이도: 쉬움

비즈니스 전략 & 커뮤니케이션 (3개 질문)

18. 분석 프로젝트의 우선순위를 어떻게 정하나요?

답변: 우선순위 지정은 최대 비즈니스 영향을 보장합니다.

프레임워크:
- 영향: 잠재적인 비즈니스 가치
- 노력: 필요한 시간과 리소스
- 긴급성: 시간 민감도
- 이해 관계자 정렬: 임원 지원
우선순위 지정 매트릭스:
- 높은 영향, 낮은 노력: 먼저 수행
- 높은 영향, 높은 노력: 신중하게 계획
- 낮은 영향, 낮은 노력: 빠른 승리
- 낮은 영향, 높은 노력: 피하기
질문:
- 어떤 비즈니스 문제를 해결하나요?
- 예상 ROI는 얼마인가요?
- 이해 관계자는 누구인가요?
- 어떤 데이터를 사용할 수 있나요?
- 종속성은 무엇인가요?

희귀성: 흔함 난이도: 중간

19. 이해 관계자의 상충되는 요구 사항을 어떻게 처리하나요?

답변: 이해 관계자 관리는 고급 분석가에게 매우 중요합니다.

접근 방식:
- 요구 사항 이해: 명확한 질문
- 공통점 찾기: 공유 목표
- 우선순위 지정: 비즈니스 영향 기반
- 트레이드오프 전달: 제약 조건 설명
- 대안 제시: 윈-윈 솔루션
- 필요한 경우 에스컬레이션: 임원 정렬
- 결정 문서화: 명확한 기록
예:
- 마케팅은 실시간 대시보드를 원함
- IT는 실시간이 너무 비싸다고 말함
- 솔루션: 거의 실시간 (15분 새로 고침)은 요구와 비용의 균형을 맞춥니다.

희귀성: 흔함 난이도: 중간

20. 분석 작업의 성공 여부를 어떻게 측정하나요?

답변: 가치 입증은 경력 성장에 필수적입니다.

지표:
- 비즈니스 영향:
  - 수익 증가
  - 비용 절감
  - 효율성 향상
  - 더 나은 의사 결정
- 채택:
  - 대시보드 사용량
  - 보고서 배포
  - 이해 관계자 피드백
- 품질:
  - 데이터 정확성
  - 적시성
  - 통찰력의 실행 가능성
문서화:
- 프로젝트 및 결과 추적
- 가능한 경우 영향 정량화
- 추천서 수집
- 사례 연구 발표

희귀성: 중간 난이도: 중간

최신 커리어 조언

시니어 데이터 분석가 면접 질문: SQL, 대시보드, 이해관계자 대응

소개

고급 SQL (6개 질문)

1. 윈도우 함수를 설명하고 예를 들어보세요.

2. 느린 SQL 쿼리를 어떻게 최적화하나요?

3. CTE (Common Table Expressions)는 무엇이며 언제 사용하나요?

4. UNION과 UNION ALL의 차이점을 설명하세요.

5. SQL에서 NULL 값을 어떻게 처리하나요?

6. 서브쿼리는 무엇이며 언제 JOIN 대신 사용하나요?

통계 분석 (4개 질문)

7. 코호트 분석을 어떻게 수행하나요?

8. A/B 테스트 분석 및 통계적 유의성을 설명하세요.

9. 백분위수를 계산하고 해석하는 방법을 설명하세요.

10. 시계열 분석이란 무엇이며 계절성을 어떻게 처리하나요?

데이터 모델링 & ETL (4개 질문)

11. 스타 스키마와 스노우플레이크 스키마를 설명하세요.

12. ETL이란 무엇이며 ETL 파이프라인을 어떻게 설계하나요?

13. 데이터 품질을 어떻게 보장하나요?

14. 데이터 정규화란 무엇이며 언제 비정규화하나요?

대시보드 & 시각화 (3개 질문)

15. 효과적인 대시보드를 어떻게 설계하나요?

16. 대시보드 성능을 어떻게 최적화하나요?

17. 다양한 비즈니스 기능을 위해 어떤 지표를 추적하나요?

비즈니스 전략 & 커뮤니케이션 (3개 질문)

18. 분석 프로젝트의 우선순위를 어떻게 정하나요?

19. 이해 관계자의 상충되는 요구 사항을 어떻게 처리하나요?

20. 분석 작업의 성공 여부를 어떻게 측정하나요?

실제로 효과가 있는 주간 커리어 팁

실제로 효과가 있는 주간 커리어 팁

관련 게시물

시니어 데이터 사이언티스트 면접 질문: ML, 제품, MLOps

리드 데이터 사이언티스트 면접 질문

시니어 보안 엔지니어 면접 질문과 답변

채용률을 60% 높이는 이력서 만들기

이 게시물 공유

50% 더 빠르게 채용되세요