컨텐츠로 건너뛰기

인프라 가이드

AI 실습실 인프라

DGX H100 사양

항목사양
GPUNVIDIA H100 SXM5 × 8
GPU 메모리80GB HBM3 × 8 (총 640GB)
CPUIntel Xeon Platinum 8480C × 2 (112코어)
시스템 메모리2TB DDR5
스토리지7.68TB NVMe SSD
네트워크8 × InfiniBand 400Gb/s

MIG 슬라이스 할당

각 학생에게 1g.10gb MIG 슬라이스 1개가 할당된다:

슬라이스 타입GPU 메모리최대 인스턴스적합한 용도
1g.10gb10GB7개vLLM Lite 모델, 실습
2g.20gb20GB3개중간 규모 모델
3g.40gb40GB2개대규모 배포
7g.80gb80GB1개전체 GPU

서버 접속

Terminal window
# SSH 접속
ssh [학번]@dgx.chu.ac.kr
# 할당된 MIG 확인
nvidia-smi mig -lgip
# GPU 사용률 모니터링
nvidia-smi dmon -s u -d 5 # 5초 간격
# 할당된 MIG 슬라이스에서 Python 실행
CUDA_VISIBLE_DEVICES=MIG-GPU-[UUID] python your_script.py

Kubernetes 워크로드 실행

# job.yaml — 배치 작업 제출
apiVersion: batch/v1
kind: Job
metadata:
name: [학번]-experiment
namespace: ai-engineering
spec:
template:
spec:
containers:
- name: experiment
image: pytorch/pytorch:2.5-cuda12-cudnn9-devel
command: ["python", "train.py"]
resources:
limits:
nvidia.com/mig-1g.10gb: "1"
memory: "16Gi"
cpu: "8"
volumeMounts:
- name: workspace
mountPath: /workspace
volumes:
- name: workspace
persistentVolumeClaim:
claimName: [학번]-pvc
restartPolicy: Never
Terminal window
# Job 제출
kubectl apply -f job.yaml -n ai-engineering
# 로그 확인
kubectl logs -f job/[학번]-experiment -n ai-engineering
# Job 삭제
kubectl delete job [학번]-experiment -n ai-engineering

스토리지

경로용량용도
/home/[학번]100GB홈 디렉토리
/workspace/[학번]500GB실습 프로젝트
/data/shared10TB공용 데이터셋 (읽기 전용)
/models/cache5TB공용 모델 캐시 (읽기 전용)

유용한 명령어

Terminal window
# 디스크 사용량 확인
du -sh /workspace/[학번]/*
# 프로세스 확인
ps aux | grep python
# GPU 프로세스 확인
nvidia-smi
# Slurm 작업 목록 (대기 중인 작업)
squeue -u [학번]

주의사항

  1. 컴퓨팅 자원 절약: 실습이 끝나면 프로세스를 종료하세요
  2. 대용량 파일: 1GB 이상 파일은 /data/shared에 공유 요청
  3. 모델 다운로드: /models/cache에 이미 있는 모델은 재다운로드 불필요
  4. 야간 배치: 장시간 실험은 야간(22:00–06:00)에 Kubernetes Job으로 제출

문의

기술적 문제는 AI 실습실 관리자 (lab@chu.ac.kr) 또는 GitHub Issue