10주차: DeepSeek-Coder-V2와 오픈소스 모델

Phase 410주차 고급

이론 (Theory)

DeepSeek-Coder-V2 개요

DeepSeek-Coder-V2는 236B 파라미터의 MoE(Mixture-of-Experts) 모델로, 코딩 작업에서 GPT-4o 수준의 성능을 보여준다.

특성	수치
총 파라미터	236B
활성 파라미터	21B (추론 시)
컨텍스트 창	128K 토큰
지원 언어	338개 프로그래밍 언어
라이선스	DeepSeek License (상용 허용)

오픈소스 vs 상용 API 비교

상용 API (Claude, GPT-4)

장점: 즉시 사용, 유지보수 불필요
단점: 데이터 프라이버시, 비용 예측 불가, API 제한
비용: ~$15/1M 토큰 (input)

오픈소스 (DeepSeek + vLLM)

장점: 완전한 제어, 데이터 내부 보관, 비용 예측 가능
단점: 초기 설정 비용, 유지보수 필요
비용: H100 서버 비용만 (토큰당 ~$0.001)

에이전틱 코딩 도구 생태계 (2026)

상용 (Commercial)          오픈소스 (Open-weight)
├── Claude Code (Anthropic) ├── DeepSeek-Coder-V2
├── Cursor (GPT-4o)        ├── Qwen2.5-Coder-32B
├── GitHub Copilot         └── Code Llama 3
└── Amazon Q

실습 (Practicum)

vLLM으로 DeepSeek 배포

DGX 서버에서 vLLM 설치

# MIG 슬라이스 내에서
pip install vllm

모델 다운로드 및 서버 실행

python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --port 8000

OpenAI 호환 API로 테스트

import openai

client = openai.OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc"
)

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct",
    messages=[{"role": "user", "content": "Python으로 퀵소트 구현해줘"}]
)
print(response.choices[0].message.content)

성능 벤치마크

# 처리량 벤치마크
python -m vllm.benchmarks.benchmark_throughput \
  --model deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \
  --num-prompts 100 \
  --input-len 512 \
  --output-len 128

과제 (Assignment)

Lab 10: vLLM 배포 실습

제출 마감: 2026-05-13 23:59

요구사항:

DGX 서버에 vLLM 서버 구동 성공 스크린샷
DeepSeek-Coder-V2 vs Claude 코딩 성능 비교 (동일 태스크 5개)
처리량(tokens/sec) 벤치마크 결과
비용 분석: API 비용 vs DGX 운영 비용 계산