シニアシステム管理者 面接質問

はじめに

シニアシステム管理者の面接では、障害調査、Linux と Windows 環境の保護、定型作業の自動化、復旧計画、技術的な判断の説明など、プレッシャーの中でインフラを安定させる力が問われます。

このガイドは、実務経験とシニアとしての判断力が伝わる回答を準備するためのものです。各トピックでは、手順だけでなく、リスク低減、可用性、アクセス制御、ドキュメント化、インシデント時のコミュニケーションまで結び付けて答えましょう。

仮想化とクラウド

1. Type 1とType 2のハイパーバイザーの違いを説明してください。

回答:

Type 1（ベアメタル）:

ハードウェア上で直接実行
より優れたパフォーマンス
例：VMware ESXi、Hyper-V、KVM

Type 2（ホスト型）:

ホストOS上で実行
セットアップが容易
例：VMware Workstation、VirtualBox

Loading diagram...

KVM管理:

# VMをリスト表示
virsh list --all

# VMを起動
virsh start vm-name

# XMLからVMを作成
virsh define vm-config.xml

# VMをクローン
virt-clone --original vm1 --name vm2 --auto-clone

# VMのリソース割り当て
virsh setmem vm-name 4G
virsh setvcpus vm-name 4

希少性: 一般的 難易度: 中

2. 高可用性クラスタをどのように設計しますか？

回答: 高可用性（HA） は、障害が発生した場合でもサービスがアクセス可能な状態を維持することを保証します。

クラスタの種類:

Loading diagram...

Active-Passiveクラスタ:

1つのノードがアクティブ、その他はスタンバイ
障害発生時に自動フェイルオーバー
リソースの使用率が低い

Active-Activeクラスタ:

すべてのノードがトラフィックを処理
より良いリソースの使用率
より複雑な構成

Pacemaker + Corosyncの設定:

# クラスタソフトウェアをインストール
sudo apt install pacemaker corosync pcs

# クラスタ認証を構成
sudo passwd hacluster
sudo pcs cluster auth node1 node2 -u hacluster

# クラスタを作成
sudo pcs cluster setup --name mycluster node1 node2

# クラスタを起動
sudo pcs cluster start --all
sudo pcs cluster enable --all

# テストのためにSTONITHを無効化（本番環境では有効化）
sudo pcs property set stonith-enabled=false

# 仮想IPリソースを作成
sudo pcs resource create virtual_ip ocf:heartbeat:IPaddr2 \
    ip=192.168.1.100 cidr_netmask=24 \
    op monitor interval=30s

# Webサービスリソースを作成
sudo pcs resource create webserver ocf:heartbeat:apache \
    configfile=/etc/apache2/apache2.conf \
    statusurl="http://localhost/server-status" \
    op monitor interval=1min

# リソースをグループ化
sudo pcs resource group add webgroup virtual_ip webserver

# リソース制約を設定
sudo pcs constraint colocation add webserver with virtual_ip INFINITY
sudo pcs constraint order virtual_ip then webserver

# クラスタの状態を確認
sudo pcs status
sudo crm_mon -1

Keepalived（シンプルなHA）:

# Keepalivedをインストール
sudo apt install keepalived

# マスターで構成
sudo vi /etc/keepalived/keepalived.conf

vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    
    authentication {
        auth_type PASS
        auth_pass secret123
    }
    
    virtual_ipaddress {
        192.168.1.100/24
    }
    
    track_script {
        chk_nginx
    }
}

vrrp_script chk_nginx {
    script "/usr/bin/killall -0 nginx"
    interval 2
    weight 2
}

データベースレプリケーション（MySQL）:

# マスターの設定
[mysqld]
server-id = 1
log_bin = /var/log/mysql/mysql-bin.log
binlog_do_db = production

# レプリケーションユーザーを作成
CREATE USER 'repl'@'%' IDENTIFIED BY 'password';
GRANT REPLICATION SLAVE ON *.* TO 'repl'@'%';
FLUSH PRIVILEGES;

# マスターの状態を取得
SHOW MASTER STATUS;

# スレーブの設定
[mysqld]
server-id = 2
relay-log = /var/log/mysql/mysql-relay-bin
log_bin = /var/log/mysql/mysql-bin.log
read_only = 1

# スレーブを構成
CHANGE MASTER TO
    MASTER_HOST='master-ip',
    MASTER_USER='repl',
    MASTER_PASSWORD='password',
    MASTER_LOG_FILE='mysql-bin.000001',
    MASTER_LOG_POS=107;

START SLAVE;
SHOW SLAVE STATUS\G

ヘルスチェック:

#!/bin/bash
# サービスヘルスチェックスクリプト

check_service() {
    if systemctl is-active --quiet $1; then
        return 0
    else
        return 1
    fi
}

if ! check_service nginx; then
    echo "Nginx down, attempting restart"
    systemctl restart nginx
    sleep 5
    if ! check_service nginx; then
        echo "Nginx failed to restart, triggering failover"
        # フェイルオーバーをトリガー
        pcs resource move webgroup node2
    fi
fi

フェイルオーバーのテスト:

# ノードの障害をシミュレート
sudo pcs cluster stop node1

# フェイルオーバーを確認
sudo pcs status
ping 192.168.1.100

# ノードを復元
sudo pcs cluster start node1

希少性: 一般的 難易度: 難しい

自動化とスクリプト

3. システム管理タスクをどのように自動化しますか？

回答: 自動化は、手作業を減らし、一貫性を向上させます。

Bashスクリプト:

#!/bin/bash
# 自動サーバーヘルスチェック

HOSTNAME=$(hostname)
DATE=$(date '+%Y-%m-%d %H:%M:%S')
REPORT="/var/log/health-check.log"

echo "=== Health Check: $DATE ===" >> $REPORT

# CPU負荷
LOAD=$(uptime | awk -F'load average:' '{print $2}')
echo "Load Average: $LOAD" >> $REPORT

# メモリ使用量
MEM=$(free -h | grep Mem | awk '{print "Used: "$3" / "$2}')
echo "Memory: $MEM" >> $REPORT

# ディスク使用量
echo "Disk Usage:" >> $REPORT
df -h | grep -vE '^Filesystem|tmpfs|cdrom' >> $REPORT

# 失敗したサービス
FAILED=$(systemctl --failed --no-pager)
if [ -n "$FAILED" ]; then
    echo "Failed Services:" >> $REPORT
    echo "$FAILED" >> $REPORT
fi

# 深刻な場合にアラートを送信
DISK_USAGE=$(df -h / | tail -1 | awk '{print $5}' | sed 's/%//')
if [ $DISK_USAGE -gt 90 ]; then
    echo "CRITICAL: Disk usage above 90%" | mail -s "Alert: $HOSTNAME" [email protected]
fi

Ansible Playbook:

---
- name: Configure web servers
  hosts: webservers
  become: yes
  tasks:
    - name: Install packages
      apt:
        name:
          - nginx
          - python3
          - git
        state: present
        update_cache: yes
    
    - name: Copy nginx config
      template:
        src: nginx.conf.j2
        dest: /etc/nginx/nginx.conf
      notify: restart nginx
    
    - name: Ensure nginx is running
      service:
        name: nginx
        state: started
        enabled: yes
  
  handlers:
    - name: restart nginx
      service:
        name: nginx
        state: restarted

希少性: 非常に一般的 難易度: 中〜高

4. 多数のサーバー間で構成をどのように管理しますか？

回答: 大規模な構成管理には、自動化と一貫性が必要です。

ツールの比較:

ツール	タイプ	言語	エージェント	複雑さ
Ansible	プッシュ	YAML	エージェントレス	低
Puppet	プル	Ruby DSL	エージェント	高
Chef	プル	Ruby	エージェント	高
SaltStack	プッシュ/プル	YAML	エージェント/エージェントレス	中

大規模なAnsible:

# inventory/production
[webservers]
web[01:20].company.com

[databases]
db[01:05].company.com

[loadbalancers]
lb[01:02].company.com

[webservers: vars]
ansible_user=deploy
ansible_become=yes

# playbooks/site.yml
---
- name: Configure all servers
  hosts: all
  roles:
    - common
    - security
    - monitoring

- name: Configure web servers
  hosts: webservers
  roles:
    - nginx
    - php
    - application
  
- name: Configure databases
  hosts: databases
  roles:
    - mysql
    - backup

# roles/common/tasks/main.yml
---
- name: Update all packages
  apt:
    upgrade: dist
    update_cache: yes
    cache_valid_time: 3600

- name: Install common packages
  apt:
    name:
      - vim
      - htop
      - curl
      - git
    state: present

- name: Configure NTP
  template:
    src: ntp.conf.j2
    dest: /etc/ntp.conf
  notify: restart ntp

- name: Ensure services are running
  service:
    name: "{{ item }}"
    state: started
    enabled: yes
  loop:
    - ntp
    - rsyslog

動的なインベントリ:

#!/usr/bin/env python3
# dynamic_inventory.py - AWS EC2 動的なインベントリ

import json
import boto3

def get_inventory():
    ec2 = boto3.client('ec2')
    response = ec2.describe_instances()
    
    inventory = {
        '_meta': {'hostvars': {}},
        'all': {'hosts': []}
    }
    
    for reservation in response['Reservations']:
        for instance in reservation['Instances']:
            if instance['State']['Name'] != 'running':
                continue
            
            hostname = instance['PrivateIpAddress']
            inventory['all']['hosts'].append(hostname)
            
            # タグでグループ化
            for tag in instance.get('Tags', []):
                if tag['Key'] == 'Role':
                    role = tag['Value']
                    if role not in inventory:
                        inventory[role] = {'hosts': []}
                    inventory[role]['hosts'].append(hostname)
    
    return inventory

if __name__ == '__main__':
    print(json.dumps(get_inventory(), indent=2))

Infrastructure as Codeのベストプラクティス:

1. バージョン管理:

# Gitワークフロー
git checkout -b feature/update-nginx-config
# 変更を加える
git add .
git commit -m "Update nginx SSL configuration"
git push origin feature/update-nginx-config
# レビューのためにプルリクエストを作成

2. テスト:

# Playbookの構文をテスト
ansible-playbook --syntax-check site.yml

# ドライラン
ansible-playbook site.yml --check

# まずステージングで実行
ansible-playbook -i inventory/staging site.yml

# 本番環境にデプロイ
ansible-playbook -i inventory/production site.yml

3. シークレット管理:

# Ansible Vault
ansible-vault create secrets.yml
ansible-vault encrypt vars/passwords.yml
ansible-playbook site.yml --ask-vault-pass

# またはパスワードファイルを使用
ansible-playbook site.yml --vault-password-file ~/.vault_pass

4. 冪等性:

# 悪い例 - 冪等性がない
- name: Add line to file
  shell: echo "config=value" >> /etc/app.conf

# 良い例 - 冪等性がある
- name: Ensure config line exists
  lineinfile:
    path: /etc/app.conf
    line: "config=value"
    state: present

並列実行:

# 一度に10台のホストで実行
ansible-playbook -i inventory site.yml --forks 10

# 特定のホストに制限
ansible-playbook site.yml --limit webservers

# 特定のタグを実行
ansible-playbook site.yml --tags "configuration,deploy"

希少性: 一般的 難易度: 中〜高

ディザスタリカバリ

5. ディザスタリカバリ計画をどのように設計しますか？

回答: 包括的なDR戦略：

主要なメトリクス:

RTO（目標復旧時間）: 許容できる最大のダウンタイム
RPO（目標復旧時点）: 許容できる最大のデータ損失

DR戦略:

1. バックアップ戦略:

#!/bin/bash
# リテンション付きの自動バックアップ

BACKUP_SOURCE="/var/www /etc /home"
BACKUP_DEST="/mnt/backup"
REMOTE_SERVER="backup.company.com"
RETENTION_DAYS=30

# バックアップを作成
DATE=$(date +%Y%m%d)
tar -czf $BACKUP_DEST/backup-$DATE.tar.gz $BACKUP_SOURCE

# リモートに同期
rsync -avz --delete $BACKUP_DEST/ $REMOTE_SERVER:/backups/

# 古いバックアップをクリーンアップ
find $BACKUP_DEST -name "backup-*.tar.gz" -mtime +$RETENTION_DAYS -delete

# バックアップを検証
tar -tzf $BACKUP_DEST/backup-$DATE.tar.gz > /dev/null
if [ $? -eq 0 ]; then
    echo "Backup verified successfully"
else
    echo "Backup verification failed!" | mail -s "Backup Alert" [email protected]
fi

2. データベースレプリケーション:

# MySQL Master-Slaveの設定
# マスターで：
CHANGE MASTER TO
  MASTER_HOST='master-server',
  MASTER_USER='repl_user',
  MASTER_PASSWORD='password',
  MASTER_LOG_FILE='mysql-bin.000001',
  MASTER_LOG_POS=107;

START SLAVE;
SHOW SLAVE STATUS\G

3. ドキュメント:

復旧手順
連絡先リスト
システム図
構成バックアップ

希少性: 非常に一般的 難易度: 難しい

セキュリティ強化

6. Linuxサーバーをどのように強化しますか？

回答: 多層的なセキュリティアプローチ：

1. システムアップデート:

# 自動セキュリティアップデート（Ubuntu）
sudo apt install unattended-upgrades
sudo dpkg-reconfigure -plow unattended-upgrades

2. SSHの強化:

# /etc/ssh/sshd_config
Port 2222  # デフォルトポートを変更
PermitRootLogin no
PasswordAuthentication no
PubkeyAuthentication yes
AllowUsers admin devops
MaxAuthTries 3
ClientAliveInterval 300
ClientAliveCountMax 2

3. ファイアウォールの構成:

# iptablesルール
iptables -P INPUT DROP
iptables -P FORWARD DROP
iptables -P OUTPUT ACCEPT

# 確立された接続を許可
iptables -A INPUT -m state --state ESTABLISHED,RELATED -j ACCEPT

# SSHを許可（カスタムポート）
iptables -A INPUT -p tcp --dport 2222 -j ACCEPT

# HTTP/HTTPSを許可
iptables -A INPUT -p tcp --dport 80 -j ACCEPT
iptables -A INPUT -p tcp --dport 443 -j ACCEPT

# ルールを保存
iptables-save > /etc/iptables/rules.v4

4. 侵入検知:

# AIDEをインストール
sudo apt install aide
sudo aideinit

# 変更を確認
sudo aide --check

5. 監査ログ:

# auditdを有効化
sudo systemctl enable auditd
sudo systemctl start auditd

# ファイルアクセスを監視
sudo auditctl -w /etc/passwd -p wa -k passwd_changes
sudo auditctl -w /etc/shadow -p wa -k shadow_changes

希少性: 非常に一般的 難易度: 難しい

パフォーマンス最適化

7. サーバーのパフォーマンスをどのように最適化しますか？

回答: 体系的なパフォーマンスチューニング：

1. ボトルネックを特定:

# CPU
mpstat 1 10

# メモリ
vmstat 1 10

# ディスクI/O
iostat -x 1 10

# ネットワーク
iftop
nethogs

2. サービスの最適化:

# Nginxチューニング
worker_processes auto;
worker_connections 4096;
keepalive_timeout 65;
gzip on;
gzip_types text/plain text/css application/json;

# MySQLチューニング
innodb_buffer_pool_size = 4G
max_connections = 200
query_cache_size = 64M

3. カーネルチューニング:

# /etc/sysctl.conf
net.core.somaxconn = 4096
net.ipv4.tcp_max_syn_backlog = 4096
net.ipv4.tcp_fin_timeout = 30
vm.swappiness = 10
fs.file-max = 100000

4. 監視とアラート:

# Prometheus + Grafana
# システムメトリクス用のNode Exporter
# しきい値に対するカスタムアラート

希少性: 一般的 難易度: 中〜高

8. 包括的な監視およびアラートソリューションをどのように設計しますか？

回答: 効果的な監視は、障害を防ぎ、迅速なインシデント対応を可能にします。

監視スタックアーキテクチャ:

Loading diagram...

Prometheusの設定:

# prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets:
        - 'server1:9100'
        - 'server2:9100'
        - 'server3:9100'
  
  - job_name: 'mysql'
    static_configs:
      - targets: ['db1:9104']
  
  - job_name: 'nginx'
    static_configs:
      - targets: ['web1:9113']

alerting:
  alertmanagers:
    - static_configs:
      - targets: ['localhost:9093']

rule_files:
  - 'alerts/*.yml'

アラートルール:

# alerts/system.yml
groups:
  - name: system_alerts
    interval: 30s
    rules:
      - alert: HighCPUUsage
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "High CPU usage on {{ $labels.instance }}"
          description: "CPU usage is {{ $value }}%"
      
      - alert: HighMemoryUsage
        expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 90
        for: 5m
        labels:
          severity: critical
        annotations:
          summary: "High memory usage on {{ $labels.instance }}"
          description: "Memory usage is {{ $value }}%"
      
      - alert: DiskSpaceLow
        expr: (node_filesystem_avail_bytes{mountpoint="/"} / node_filesystem_size_bytes{mountpoint="/"}) * 100 < 10
        for: 5m
        labels:
          severity: critical
        annotations:
          summary: "Low disk space on {{ $labels.instance }}"
          description: "Only {{ $value }}% disk space remaining"
      
      - alert: ServiceDown
        expr: up == 0
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "Service {{ $labels.job }} down"
          description: "{{ $labels.instance }} has been down for more than 2 minutes"

Alertmanagerの設定:

# alertmanager.yml
global:
  resolve_timeout: 5m
  slack_api_url: 'https://hooks.slack.com/services/YOUR/WEBHOOK/URL'

route:
  group_by: ['alertname', 'cluster']
  group_wait: 10s
  group_interval: 10s
  repeat_interval: 12h
  receiver: 'default'
  routes:
    - match:
        severity: critical
      receiver: 'pagerduty'
      continue: true
    - match:
        severity: warning
      receiver: 'slack'

receivers:
  - name: 'default'
    email_configs:
      - to: '[email protected]'
        from: '[email protected]'
        smarthost: 'smtp.company.com:587'
  
  - name: 'slack'
    slack_configs:
      - channel: '#alerts'
        title: '{{ .GroupLabels.alertname }}'
        text: '{{ range .Alerts }}{{ .Annotations.description }}{{ end }}'
  
  - name: 'pagerduty'
    pagerduty_configs:
      - service_key: 'YOUR_PAGERDUTY_KEY'

inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'instance']

Grafanaダッシュボード:

{
  "dashboard": {
    "title": "System Overview",
    "panels": [
      {
        "title": "CPU Usage",
        "targets": [
          {
            "expr": "100 - (avg by(instance) (irate(node_cpu_seconds_total{mode=\"idle\"}[5m])) * 100)"
          }
        ]
      },
      {
        "title": "Memory Usage",
        "targets": [
          {
            "expr": "(node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100"
          }
        ]
      }
    ]
  }
}

SLO/SLA/SLIの概念:

SLI（サービスレベルインジケーター）:

サービスレベルの定量的尺度
例：稼働率（％）、レイテンシー、エラー率

SLO（サービスレベル目標）:

SLIの目標値
例：99.9％の稼働率、p95レイテンシー < 200ms

SLA（サービスレベルアグリーメント）:

結果を伴う契約
例：99.9％の稼働率、さもなければ顧客は払い戻しを受ける

# SLOの例
- alert: SLOViolation
  expr: |
    (
      sum(rate(http_requests_total{status=~"2.."}[30d]))
      /
      sum(rate(http_requests_total[30d]))
    ) < 0.999
  labels:
    severity: critical
  annotations:
    summary: "SLO violation: Success rate below 99.9%"

アラート疲労の防止:

意味のあるアラート:
- 原因ではなく症状に基づいてアラート
- すべてのアラートは実行可能であるべき
- ノイズの多いアラートを削除
アラートのグループ化:
- 関連するアラートをグループ化
- 抑制ルールを使用
- 適切なしきい値を設定
エスカレーション:
- 警告 → チームチャット
- 危機的 → PagerDuty
- オンコールローテーションを使用

希少性: 一般的 難易度: 難しい

エンタープライズインフラストラクチャ

9. 大規模なWindows環境をどのように管理しますか？

回答: 集中管理戦略：

グループポリシー管理:

# GPOを作成
New-GPO -Name "Security Policy" -Comment "Enterprise security settings"

# OUにリンク
New-GPLink -Name "Security Policy" -Target "OU=Servers,DC=company,DC=com"

# パスワードポリシーを構成
Set-ADDefaultDomainPasswordPolicy -Identity company.com `
    -MinPasswordLength 12 `
    -PasswordHistoryCount 24 `
    -MaxPasswordAge 90.00:00:00

# GPOを介してソフトウェアをデプロイ
# コンピューターの構成 > ポリシー > ソフトウェアの設定 > ソフトウェアのインストール

WSUS（Windows Update）:

# WSUSを構成
Set-ItemProperty -Path "HKLM:\SOFTWARE\Policies\Microsoft\Windows\WindowsUpdate" `
    -Name "WUServer" -Value "http://wsus.company.com:8530"

# アップデートチェックを強制
wuauclt /detectnow /updatenow

PowerShellリモート処理:

# リモート処理を有効化
Enable-PSRemoting -Force

# 複数のサーバーで実行
Invoke-Command -ComputerName server1,server2,server3 -ScriptBlock {
    Get-Service | Where-Object {$_.Status -eq "Stopped"}
}

# 並列実行
$servers = Get-Content servers.txt
$servers | ForEach-Object -Parallel {
    Test-Connection -ComputerName $_ -Count 1
} -ThrottleLimit 10

希少性: 一般的 難易度: 難しい

結論

シニアシステム管理者の面接では、実践的でシナリオに基づいた回答が評価されます。変更前に調査する姿勢、安全な自動化、特権アクセスの保護、復旧テスト、障害時の明確なコミュニケーションを示しましょう。

仮想化: ハイパーバイザー、リソース管理、移行
高可用性: クラスタリング、フェイルオーバー、レプリケーション
自動化: スクリプト、構成管理、オーケストレーション
構成管理: Ansible、Puppet、大規模なIaC
ディザスタリカバリ: バックアップ戦略、レプリケーション、テスト
セキュリティ: 強化、コンプライアンス、監視
パフォーマンス: 最適化、キャパシティプランニング、トラブルシューティング
監視: Prometheus、Grafana、アラート、SLO/SLA
エンタープライズ管理: AD、GPO、集中管理

練習では、各回答を短いストーリーにします。環境、リスク、診断手順、修正、検証、再発防止のために変えたことを順に説明できるようにしておきましょう。

最新のキャリアアドバイス

シニアシステム管理者の面接質問と回答

はじめに

仮想化とクラウド

1. Type 1とType 2のハイパーバイザーの違いを説明してください。

2. 高可用性クラスタをどのように設計しますか？

自動化とスクリプト

3. システム管理タスクをどのように自動化しますか？

4. 多数のサーバー間で構成をどのように管理しますか？

ディザスタリカバリ

5. ディザスタリカバリ計画をどのように設計しますか？

セキュリティ強化

6. Linuxサーバーをどのように強化しますか？

パフォーマンス最適化

7. サーバーのパフォーマンスをどのように最適化しますか？

8. 包括的な監視およびアラートソリューションをどのように設計しますか？

エンタープライズインフラストラクチャ

9. 大規模なWindows環境をどのように管理しますか？

結論

実際に機能する週次のキャリアのヒント

実際に機能する週次のキャリアのヒント

関連投稿

Senior AWS Cloud Engineer 面接質問と回答

シニア Azure クラウドエンジニア面接質問：実務シナリオ別ガイド

シニア GCP クラウドエンジニア面接質問と回答

次の面接は履歴書一つで決まる

この投稿を共有

履歴書作成時間を90%短縮