AI 실습실 인프라
DGX H100 사양
| 항목 | 사양 |
|---|
| GPU | NVIDIA H100 SXM5 × 8 |
| GPU 메모리 | 80GB HBM3 × 8 (총 640GB) |
| CPU | Intel Xeon Platinum 8480C × 2 (112코어) |
| 시스템 메모리 | 2TB DDR5 |
| 스토리지 | 7.68TB NVMe SSD |
| 네트워크 | 8 × InfiniBand 400Gb/s |
MIG 슬라이스 할당
각 학생에게 1g.10gb MIG 슬라이스 1개가 할당된다:
| 슬라이스 타입 | GPU 메모리 | 최대 인스턴스 | 적합한 용도 |
|---|
1g.10gb | 10GB | 7개 | vLLM Lite 모델, 실습 |
2g.20gb | 20GB | 3개 | 중간 규모 모델 |
3g.40gb | 40GB | 2개 | 대규모 배포 |
7g.80gb | 80GB | 1개 | 전체 GPU |
서버 접속
nvidia-smi dmon -s u -d 5 # 5초 간격
# 할당된 MIG 슬라이스에서 Python 실행
CUDA_VISIBLE_DEVICES=MIG-GPU-[UUID] python your_script.py
Kubernetes 워크로드 실행
namespace: ai-engineering
image: pytorch/pytorch:2.5-cuda12-cudnn9-devel
command: ["python", "train.py"]
nvidia.com/mig-1g.10gb: "1"
kubectl apply -f job.yaml -n ai-engineering
kubectl logs -f job/[학번]-experiment -n ai-engineering
kubectl delete job [학번]-experiment -n ai-engineering
스토리지
| 경로 | 용량 | 용도 |
|---|
/home/[학번] | 100GB | 홈 디렉토리 |
/workspace/[학번] | 500GB | 실습 프로젝트 |
/data/shared | 10TB | 공용 데이터셋 (읽기 전용) |
/models/cache | 5TB | 공용 모델 캐시 (읽기 전용) |
유용한 명령어
주의사항
- 컴퓨팅 자원 절약: 실습이 끝나면 프로세스를 종료하세요
- 대용량 파일: 1GB 이상 파일은
/data/shared에 공유 요청
- 모델 다운로드:
/models/cache에 이미 있는 모델은 재다운로드 불필요
- 야간 배치: 장시간 실험은 야간(22:00–06:00)에 Kubernetes Job으로 제출
문의
기술적 문제는 AI 실습실 관리자 (lab@chu.ac.kr) 또는 GitHub Issue