주니어 데이터 사이언티스트 면접 질문

소개

주니어 데이터 사이언티스트 면접에서는 보통 데이터를 정리할 수 있는지, 기본 Python과 SQL을 쓸 수 있는지, 통계를 명확히 설명할 수 있는지, 간단한 머신러닝 문제를 논리적으로 풀 수 있는지를 확인합니다. 좋은 답변은 짧고 실용적이며 본인의 프로젝트, 수업, 인턴 경험과 연결됩니다.

이 가이드는 면접 초반에 자주 확인되는 영역을 연습하도록 구성했습니다. Python 기본기, pandas 데이터 처리, SQL식 사고, 확률과 통계, 모델 평가, 그리고 경험을 과장하지 않고 의사결정 근거를 설명하는 방법을 다룹니다.

Python 기초 (5 문제)

1. Python에서 리스트와 튜플의 차이점은 무엇입니까?

답변:

리스트: 변경 가능 (수정 가능), 대괄호 []로 정의
튜플: 변경 불가능 (수정 불가), 괄호 ()로 정의
성능: 튜플이 약간 더 빠르고 메모리를 적게 사용
사용 사례:
- 리스트: 데이터를 수정해야 할 때
- 튜플: 고정된 컬렉션, 딕셔너리 키, 함수 반환에 사용

# 리스트 - 변경 가능
my_list = [1, 2, 3]
my_list[0] = 10  # 작동
my_list.append(4)  # 작동
print(my_list)  # [10, 2, 3, 4]

# 튜플 - 변경 불가능
my_tuple = (1, 2, 3)
# my_tuple[0] = 10  # 오류: 튜플은 변경 불가능
# my_tuple.append(4)  # 오류: append 메서드 없음

# 튜플 언패킹
x, y, z = (1, 2, 3)
print(x, y, z)  # 1 2 3

희소성: 매우 흔함 난이도: 쉬움

2. 리스트 컴프리헨션을 설명하고 예를 들어보세요.

답변: 리스트 컴프리헨션은 기존 이터러블을 기반으로 리스트를 생성하는 간결한 방법을 제공합니다.

구문: [expression for item in iterable if condition]
장점: 가독성이 좋고, 종종 루프보다 빠름

# 전통적인 루프
squares = []
for i in range(10):
    squares.append(i ** 2)

# 리스트 컴프리헨션
squares = [i ** 2 for i in range(10)]
print(squares)  # [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

# 조건 포함
even_squares = [i ** 2 for i in range(10) if i % 2 == 0]
print(even_squares)  # [0, 4, 16, 36, 64]

# 중첩 컴프리헨션
matrix = [[i * j for j in range(3)] for i in range(3)]
print(matrix)  # [[0, 0, 0], [0, 1, 2], [0, 2, 4]]

# 딕셔너리 컴프리헨션
squares_dict = {i: i ** 2 for i in range(5)}
print(squares_dict)  # {0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

희소성: 매우 흔함 난이도: 쉬움

3. 람다 함수는 무엇이며 언제 사용하겠습니까?

답변: 람다 함수는 익명의 단일 표현식 함수입니다.

구문: lambda arguments: expression
사용 사례: 짧은 함수, 콜백, 정렬, 필터링

# 일반 함수
def square(x):
    return x ** 2

# 람다 함수
square_lambda = lambda x: x ** 2
print(square_lambda(5))  # 25

# map과 함께 사용
numbers = [1, 2, 3, 4, 5]
squared = list(map(lambda x: x ** 2, numbers))
print(squared)  # [1, 4, 9, 16, 25]

# filter와 함께 사용
evens = list(filter(lambda x: x % 2 == 0, numbers))
print(evens)  # [2, 4]

# key를 사용한 정렬
students = [('Alice', 85), ('Bob', 92), ('Charlie', 78)]
sorted_students = sorted(students, key=lambda x: x[1], reverse=True)
print(sorted_students)  # [('Bob', 92), ('Alice', 85), ('Charlie', 78)]

희소성: 매우 흔함 난이도: 쉬움

4. 리스트에 대한 `append()`와 `extend()`의 차이점을 설명하세요.

답변:

append(): 리스트의 끝에 단일 요소를 추가
extend(): 이터러블의 여러 요소를 끝에 추가

# append - 단일 요소 추가
list1 = [1, 2, 3]
list1.append(4)
print(list1)  # [1, 2, 3, 4]

list1.append([5, 6])
print(list1)  # [1, 2, 3, 4, [5, 6]] - 리스트를 단일 요소로 추가

# extend - 여러 요소 추가
list2 = [1, 2, 3]
list2.extend([4, 5, 6])
print(list2)  # [1, 2, 3, 4, 5, 6]

# extend의 대안
list3 = [1, 2, 3]
list3 += [4, 5, 6]
print(list3)  # [1, 2, 3, 4, 5, 6]

희소성: 흔함 난이도: 쉬움

5. `*args`와 `**kwargs`는 무엇입니까?

답변: 함수가 가변적인 수의 인수를 허용하도록 합니다.

*args: 가변적인 수의 위치 인수 (튜플)
**kwargs: 가변적인 수의 키워드 인수 (딕셔너리)

# *args - 위치 인수
def sum_all(*args):
    return sum(args)

print(sum_all(1, 2, 3))  # 6
print(sum_all(1, 2, 3, 4, 5))  # 15

# **kwargs - 키워드 인수
def print_info(**kwargs):
    for key, value in kwargs.items():
        print(f"{key}: {value}")

print_info(name="Alice", age=25, city="NYC")
# name: Alice
# age: 25
# city: NYC

# 결합
def flexible_function(*args, **kwargs):
    print("Positional:", args)
    print("Keyword:", kwargs)

flexible_function(1, 2, 3, name="Alice", age=25)
# Positional: (1, 2, 3)
# Keyword: {'name': 'Alice', 'age': 25}

희소성: 흔함 난이도: 중간

통계 및 확률 (5 문제)

6. 평균, 중앙값, 최빈값의 차이점은 무엇입니까?

답변:

평균: 모든 값의 평균 (합계 / 개수)
중앙값: 정렬했을 때 중간 값
최빈값: 가장 빈번하게 나타나는 값
사용 시기:
- 평균: 정규 분포된 데이터
- 중앙값: 왜곡된 데이터 또는 이상치 존재
- 최빈값: 범주형 데이터

import numpy as np
from scipy import stats

data = [1, 2, 2, 3, 4, 5, 100]

# 평균 - 이상치의 영향을 받음
mean = np.mean(data)
print(f"Mean: {mean}")  # 16.71

# 중앙값 - 이상치에 강건함
median = np.median(data)
print(f"Median: {median}")  # 3

# 최빈값
mode = stats.mode(data, keepdims=True)
print(f"Mode: {mode.mode[0]}")  # 2

희소성: 매우 흔함 난이도: 쉬움

7. 분산과 표준 편차를 설명하세요.

답변:

분산: 평균으로부터의 평균 제곱 편차
표준 편차: 분산의 제곱근 (데이터와 동일한 단위)
목적: 데이터의 확산/분산 측정

import numpy as np

data = [2, 4, 4, 4, 5, 5, 7, 9]

# 분산
variance = np.var(data, ddof=1)  # ddof=1은 표본 분산
print(f"Variance: {variance}")  # 4.57

# 표준 편차
std_dev = np.std(data, ddof=1)
print(f"Std Dev: {std_dev}")  # 2.14

# 수동 계산
mean = np.mean(data)
variance_manual = sum((x - mean) ** 2 for x in data) / (len(data) - 1)
print(f"Manual Variance: {variance_manual}")

희소성: 매우 흔함 난이도: 쉬움

8. p-값은 무엇이며 어떻게 해석합니까?

답변: p-값은 귀무 가설이 참이라고 가정할 때 관찰된 것만큼 극단적인 결과를 얻을 확률입니다.

해석:
- p < 0.05: 귀무 가설 기각 (통계적으로 유의미)
- p ≥ 0.05: 귀무 가설 기각 실패
참고: p-값은 효과 크기 또는 중요도를 측정하지 않습니다.

from scipy.stats import binomtest

# 예: 동전이 공정한지 테스트
# 귀무 가설: 동전은 공정함 (p = 0.5)
# 100번 던져서 65번 앞면이 나옴

observed_heads = 65
n_flips = 100
expected_proportion = 0.5

# 이항 검정
result = binomtest(observed_heads, n_flips, expected_proportion)
p_value = result.pvalue
print(f"P-value: {p_value}")  # 0.0018

if p_value < 0.05:
    print("귀무 가설 기각 - 동전이 편향되었을 가능성이 높음")
else:
    print("귀무 가설 기각 실패 - 동전이 공정해 보임")

희소성: 매우 흔함 난이도: 중간

9. 중심 극한 정리는 무엇입니까?

답변: 중심 극한 정리는 표본 크기가 증가함에 따라 표본 평균의 표본 분포가 모집단의 분포에 관계없이 정규 분포에 가까워진다는 것을 나타냅니다.

핵심 사항:
- 모든 분포에 적용 가능 (표본 크기가 충분히 큰 경우)
- 표본 크기 30 안팎은 유용한 경험칙일 뿐 보장은 아닙니다. 왜도가 크거나 꼬리가 두꺼운 데이터는 더 많은 표본이 필요할 수 있습니다
- 가설 검정 및 신뢰 구간을 가능하게 함

import numpy as np
import matplotlib.pyplot as plt

# 비정규 분포를 가진 모집단 (지수 분포)
population = np.random.exponential(scale=2, size=10000)

# 많은 표본을 추출하고 평균 계산
sample_means = []
for _ in range(1000):
    sample = np.random.choice(population, size=30)
    sample_means.append(np.mean(sample))

# 표본 평균은 정규 분포를 따름 (CLT)
print(f"Population mean: {np.mean(population):.2f}")
print(f"Mean of sample means: {np.mean(sample_means):.2f}")
print(f"Std of sample means: {np.std(sample_means):.2f}")

희소성: 흔함 난이도: 중간

10. 상관 관계와 인과 관계는 무엇입니까?

답변:

상관 관계: 두 변수 간의 통계적 관계
인과 관계: 한 변수가 다른 변수의 변화를 직접적으로 유발
핵심 사항: 상관 관계는 인과 관계를 의미하지 않습니다.
이유:
- 교란 변수
- 역인과 관계
- 우연

import numpy as np
import pandas as pd

# 예: 아이스크림 판매량과 익사 사망자 수는 상관 관계가 있음
# 그러나 아이스크림이 익사를 유발하지 않음 (교란 변수: 온도)

# 상관 계수
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])

correlation = np.corrcoef(x, y)[0, 1]
print(f"Correlation: {correlation:.2f}")  # 0.82

# 피어슨 상관 관계
from scipy.stats import pearsonr
corr, p_value = pearsonr(x, y)
print(f"Pearson r: {corr:.2f}, p-value: {p_value:.3f}")

희소성: 매우 흔함 난이도: 쉬움

Pandas를 사용한 데이터 조작 (5 문제)

11. CSV 파일을 읽고 기본 정보를 표시하는 방법은 무엇입니까?

답변: pandas를 사용하여 데이터를 읽고 탐색합니다.

import pandas as pd

# CSV 읽기
df = pd.read_csv('data.csv')

# 기본 정보
print(df.head())  # 처음 5 행
print(df.tail())  # 마지막 5 행
print(df.shape)   # (행, 열)
print(df.info())  # 데이터 유형 및 비결측값 개수
print(df.describe())  # 통계 요약

# 열 이름 및 유형
print(df.columns)
print(df.dtypes)

# 결측값 확인
print(df.isnull().sum())

# 특정 열
print(df[['column1', 'column2']].head())

희소성: 매우 흔함 난이도: 쉬움

12. DataFrame에서 결측값을 처리하는 방법은 무엇입니까?

답변: 결측 데이터를 처리하는 다양한 전략:

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
})

# 결측값 확인
print(df.isnull().sum())

# 결측값이 있는 행 삭제
df_dropped = df.dropna()

# 결측값이 있는 열 삭제
df_dropped_cols = df.dropna(axis=1)

# 특정 값으로 채우기
df_filled = df.fillna(0)

# 평균으로 채우기
df['A'] = df['A'].fillna(df['A'].mean())

# 중앙값으로 채우기
df['B'] = df['B'].fillna(df['B'].median())

# Forward fill (이전 값 사용)
df_ffill = df.ffill()

# Backward fill (다음 값 사용)
df_bfill = df.bfill()

# 보간
df_interpolated = df.interpolate()

희소성: 매우 흔함 난이도: 쉬움

13. pandas에서 데이터를 필터링하고 선택하는 방법은 무엇입니까?

답변: 데이터를 필터링하고 선택하는 다양한 방법:

import pandas as pd

df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 28],
    'salary': [50000, 60000, 75000, 55000],
    'department': ['IT', 'HR', 'IT', 'Finance']
})

# 열 선택
print(df['name'])  # 단일 열 (Series)
print(df[['name', 'age']])  # 여러 열 (DataFrame)

# 행 필터링
high_salary = df[df['salary'] > 55000]
print(high_salary)

# 여러 조건
it_high_salary = df[(df['department'] == 'IT') & (df['salary'] > 50000)]
print(it_high_salary)

# .loc 사용 (레이블 기반)
print(df.loc[0:2, ['name', 'age']])

# .iloc 사용 (위치 기반)
print(df.iloc[0:2, 0:2])

# query 메서드
result = df.query('age > 28 and salary > 55000')
print(result)

# isin 메서드
it_or_hr = df[df['department'].isin(['IT', 'HR'])]
print(it_or_hr)

희소성: 매우 흔함 난이도: 쉬움

14. 데이터를 그룹화하고 집계하는 방법은 무엇입니까?

답변: 집계 연산에는 groupby()를 사용합니다.

import pandas as pd

df = pd.DataFrame({
    'department': ['IT', 'HR', 'IT', 'Finance', 'HR', 'IT'],
    'employee': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'salary': [50000, 45000, 60000, 55000, 48000, 65000],
    'age': [25, 30, 35, 28, 32, 40]
})

# 단일 열로 그룹화
dept_avg_salary = df.groupby('department')['salary'].mean()
print(dept_avg_salary)

# 여러 집계
dept_stats = df.groupby('department').agg({
    'salary': ['mean', 'min', 'max'],
    'age': 'mean'
})
print(dept_stats)

# 사용자 정의 집계
dept_custom = df.groupby('department').agg({
    'salary': lambda x: x.max() - x.min(),
    'employee': 'count'
})
print(dept_custom)

# 여러 그룹화 열
result = df.groupby(['department', 'age'])['salary'].sum()
print(result)

희소성: 매우 흔함 난이도: 중간

15. DataFrame을 병합하거나 조인하는 방법은 무엇입니까?

답변: merge(), join(), concat()를 사용합니다.

import pandas as pd

# 샘플 DataFrame
df1 = pd.DataFrame({
    'employee_id': [1, 2, 3, 4],
    'name': ['Alice', 'Bob', 'Charlie', 'David']
})

df2 = pd.DataFrame({
    'employee_id': [1, 2, 3, 5],
    'salary': [50000, 60000, 75000, 55000]
})

# 내부 조인 (일치하는 행만)
inner = pd.merge(df1, df2, on='employee_id', how='inner')
print(inner)

# 왼쪽 조인 (왼쪽의 모든 행)
left = pd.merge(df1, df2, on='employee_id', how='left')
print(left)

# 오른쪽 조인 (오른쪽의 모든 행)
right = pd.merge(df1, df2, on='employee_id', how='right')
print(right)

# 외부 조인 (양쪽의 모든 행)
outer = pd.merge(df1, df2, on='employee_id', how='outer')
print(outer)

# 수직으로 연결
df3 = pd.concat([df1, df2], ignore_index=True)
print(df3)

# 수평으로 연결
df4 = pd.concat([df1, df2], axis=1)
print(df4)

희소성: 매우 흔함 난이도: 중간

머신러닝 기초 (5 문제)

16. 지도 학습과 비지도 학습의 차이점은 무엇입니까?

답변:

지도 학습:
- 레이블이 지정된 훈련 데이터 (입력-출력 쌍)가 있음
- 목표: 입력에서 출력으로의 매핑 학습
- 예: 분류, 회귀
- 알고리즘: 선형 회귀, 의사 결정 트리, SVM
비지도 학습:
- 레이블이 지정된 데이터가 없음 (입력만)
- 목표: 데이터에서 패턴 또는 구조 찾기
- 예: 클러스터링, 차원 축소
- 알고리즘: K-평균, PCA, 계층적 클러스터링

from sklearn.linear_model import LinearRegression
from sklearn.cluster import KMeans
import numpy as np

# 지도 학습 - 선형 회귀
X_train = np.array([[1], [2], [3], [4], [5]])
y_train = np.array([2, 4, 6, 8, 10])

model = LinearRegression()
model.fit(X_train, y_train)
prediction = model.predict([[6]])
print(f"Supervised prediction: {prediction[0]}")  # 12

# 비지도 학습 - K-평균 클러스터링
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])

kmeans = KMeans(n_clusters=2, random_state=42)
clusters = kmeans.fit_predict(X)
print(f"Cluster assignments: {clusters}")

희소성: 매우 흔함 난이도: 쉬움

17. 과적합이란 무엇이며 어떻게 방지합니까?

답변: 과적합은 모델이 훈련 데이터를 너무 잘 학습하여 노이즈를 포함하고 새로운 데이터에서 성능이 저하되는 경우에 발생합니다.

징후:
- 높은 훈련 정확도, 낮은 테스트 정확도
- 데이터에 비해 모델이 너무 복잡함
예방:
- 더 많은 훈련 데이터
- 교차 검증
- 정규화 (L1, L2)
- 더 간단한 모델
- 조기 중단
- 드롭아웃 (신경망)

from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge, Lasso
from sklearn.preprocessing import PolynomialFeatures
import numpy as np

# 데이터 생성
X = np.random.rand(100, 1) * 10
y = 2 * X + 3 + np.random.randn(100, 1) * 2

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 과적합 예 - 고차 다항식
poly = PolynomialFeatures(degree=15)
X_poly = poly.fit_transform(X_train)

# 과적합 방지를 위한 정규화
# Ridge (L2 정규화)
ridge = Ridge(alpha=1.0)
ridge.fit(X_poly, y_train)

# Lasso (L1 정규화)
lasso = Lasso(alpha=0.1)
lasso.fit(X_poly, y_train)

print(f"Ridge score: {ridge.score(X_poly, y_train)}")
print(f"Lasso score: {lasso.score(X_poly, y_train)}")

희소성: 매우 흔함 난이도: 중간

18. 훈련-테스트 분할을 설명하고 왜 중요한가요?

답변: 훈련-테스트 분할은 데이터를 훈련 및 테스트 세트로 나누어 보이지 않는 데이터에 대한 모델 성능을 평가합니다.

목적: 과적합 방지, 실제 성능 추정
일반적인 분할: 70-30 또는 80-20 (훈련-테스트)
교차 검증: 보다 강력한 평가

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris

# 데이터 로드
iris = load_iris()
X, y = iris.data, iris.target

# 훈련-테스트 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(f"Training set size: {len(X_train)}")
print(f"Test set size: {len(X_test)}")

# 모델 훈련
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# 평가
train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)

print(f"Training accuracy: {train_score:.2f}")
print(f"Test accuracy: {test_score:.2f}")

# 교차 검증 (더 강력함)
cv_scores = cross_val_score(model, X, y, cv=5)
print(f"CV scores: {cv_scores}")
print(f"Mean CV score: {cv_scores.mean():.2f}")

희소성: 매우 흔함 난이도: 쉬움

19. 분류에 사용하는 평가 지표는 무엇입니까?

답변: 다양한 시나리오에 대한 다양한 지표:

정확도: 전체적인 정확성 (균형 잡힌 데이터 세트에 적합)
정밀도: 예측된 양성 중 올바른 것의 비율
재현율: 실제 양성 중 발견된 것의 비율
F1-점수: 정밀도와 재현율의 조화 평균
혼동 행렬: 예측의 자세한 분석

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

# 데이터 로드
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    data.data, data.target, test_size=0.3, random_state=42
)

# 모델 훈련
model = LogisticRegression(max_iter=10000)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# 지표
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Accuracy: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-Score: {f1:.2f}")

# 혼동 행렬
cm = confusion_matrix(y_test, y_pred)
print(f"\nConfusion Matrix:\n{cm}")

# 분류 보고서
print(f"\n{classification_report(y_test, y_pred)}")

희소성: 매우 흔함 난이도: 중간

20. 분류와 회귀의 차이점은 무엇입니까?

답변:

분류:
- 이산 범주/클래스 예측
- 출력: 클래스 레이블
- 예: 스팸 감지, 이미지 분류
- 알고리즘: 로지스틱 회귀, 의사 결정 트리, SVM
- 지표: 정확도, 정밀도, 재현율, F1
회귀:
- 연속적인 숫자 값 예측
- 출력: 숫자
- 예: 주택 가격 예측, 온도 예측
- 알고리즘: 선형 회귀, 랜덤 포레스트 회귀
- 지표: MSE, RMSE, MAE, R²

from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# 회귀 예
X_reg = np.array([[1], [2], [3], [4], [5]])
y_reg = np.array([2.1, 3.9, 6.2, 7.8, 10.1])

reg_model = LinearRegression()
reg_model.fit(X_reg, y_reg)
y_pred_reg = reg_model.predict([[6]])
print(f"Regression prediction: {y_pred_reg[0]:.2f}")  # 연속적인 값

# 분류 예
X_clf = np.array([[1], [2], [3], [4], [5]])
y_clf = np.array([0, 0, 1, 1, 1])  # 이진 클래스

clf_model = LogisticRegression()
clf_model.fit(X_clf, y_clf)
y_pred_clf = clf_model.predict([[3.5]])
print(f"Classification prediction: {y_pred_clf[0]}")  # 클래스 레이블 (0 또는 1)

희소성: 매우 흔함 난이도: 쉬움

최신 커리어 조언

주니어 데이터 사이언티스트 면접 질문: Python, SQL, 통계, ML

소개

Python 기초 (5 문제)

1. Python에서 리스트와 튜플의 차이점은 무엇입니까?

2. 리스트 컴프리헨션을 설명하고 예를 들어보세요.

3. 람다 함수는 무엇이며 언제 사용하겠습니까?

4. 리스트에 대한 `append()`와 `extend()`의 차이점을 설명하세요.

5. `*args`와 `**kwargs`는 무엇입니까?

통계 및 확률 (5 문제)

6. 평균, 중앙값, 최빈값의 차이점은 무엇입니까?

7. 분산과 표준 편차를 설명하세요.

8. p-값은 무엇이며 어떻게 해석합니까?

9. 중심 극한 정리는 무엇입니까?

10. 상관 관계와 인과 관계는 무엇입니까?

Pandas를 사용한 데이터 조작 (5 문제)

11. CSV 파일을 읽고 기본 정보를 표시하는 방법은 무엇입니까?

12. DataFrame에서 결측값을 처리하는 방법은 무엇입니까?

13. pandas에서 데이터를 필터링하고 선택하는 방법은 무엇입니까?

14. 데이터를 그룹화하고 집계하는 방법은 무엇입니까?

15. DataFrame을 병합하거나 조인하는 방법은 무엇입니까?

머신러닝 기초 (5 문제)

16. 지도 학습과 비지도 학습의 차이점은 무엇입니까?

17. 과적합이란 무엇이며 어떻게 방지합니까?

18. 훈련-테스트 분할을 설명하고 왜 중요한가요?

19. 분류에 사용하는 평가 지표는 무엇입니까?

20. 분류와 회귀의 차이점은 무엇입니까?

실제로 효과가 있는 주간 커리어 팁

실제로 효과가 있는 주간 커리어 팁

관련 게시물

주니어 데이터 분석가 면접 질문: SQL, Excel, BI

주니어 머신러닝 엔지니어 면접 질문

주니어 Android 개발자 면접 질문과 답변

채용률을 60% 높이는 이력서 만들기

이 게시물 공유

75% ATS 거부율을 극복하세요

최신 커리어 조언

소개

Python 기초 (5 문제)

1. Python에서 리스트와 튜플의 차이점은 무엇입니까?

2. 리스트 컴프리헨션을 설명하고 예를 들어보세요.

3. 람다 함수는 무엇이며 언제 사용하겠습니까?

4. 리스트에 대한 append()와 extend()의 차이점을 설명하세요.

5. *args와 **kwargs는 무엇입니까?

통계 및 확률 (5 문제)

6. 평균, 중앙값, 최빈값의 차이점은 무엇입니까?

7. 분산과 표준 편차를 설명하세요.

8. p-값은 무엇이며 어떻게 해석합니까?

9. 중심 극한 정리는 무엇입니까?

10. 상관 관계와 인과 관계는 무엇입니까?

Pandas를 사용한 데이터 조작 (5 문제)

11. CSV 파일을 읽고 기본 정보를 표시하는 방법은 무엇입니까?

12. DataFrame에서 결측값을 처리하는 방법은 무엇입니까?

13. pandas에서 데이터를 필터링하고 선택하는 방법은 무엇입니까?

14. 데이터를 그룹화하고 집계하는 방법은 무엇입니까?

15. DataFrame을 병합하거나 조인하는 방법은 무엇입니까?

머신러닝 기초 (5 문제)

16. 지도 학습과 비지도 학습의 차이점은 무엇입니까?

17. 과적합이란 무엇이며 어떻게 방지합니까?

18. 훈련-테스트 분할을 설명하고 왜 중요한가요?

19. 분류에 사용하는 평가 지표는 무엇입니까?

20. 분류와 회귀의 차이점은 무엇입니까?

실제로 효과가 있는 주간 커리어 팁

실제로 효과가 있는 주간 커리어 팁

관련 게시물

주니어 데이터 분석가 면접 질문: SQL, Excel, BI

주니어 머신러닝 엔지니어 면접 질문

주니어 Android 개발자 면접 질문과 답변

채용률을 60% 높이는 이력서 만들기

이 게시물 공유

75% ATS 거부율을 극복하세요

4. 리스트에 대한 `append()`와 `extend()`의 차이점을 설명하세요.

5. `*args`와 `**kwargs`는 무엇입니까?