컨텐츠로 건너뛰기

6주차: 인스트럭션 튜닝

Phase 26주차 중급

이론 (Theory)

인스트럭션 튜닝이란?

Ralph 루프에서 에이전트가 반복적인 실수를 하면, 모델 가중치를 재훈련하지 않고 PROMPT.md에 구체적이고 결정론적인 지시를 추가하여 행동을 교정한다.

인스트럭션 튜닝 프로세스

1. 반복 오류 패턴 식별
2. 오류의 구체적 원인 분석
3. 결정론적 제약 문구 작성
4. PROMPT.md 영구 섹션에 추가
5. 다음 루프에서 효과 검증

PROMPT.md 고도화 예시

# [영구 제약 — 절대 무시하지 말 것]
## ⚠️ 알려진 함정 (Instructional Tuning)
### 1. 존재하지 않는 함수 호출 금지
- `utils.parse_json()`은 이 프로젝트에 없음
- 반드시 `json.loads()`를 직접 사용할 것
- 추가일: 2026-04-02 (루프 #47에서 반복 오류 발생)
### 2. 테스트 없이 커밋 금지
- `git commit` 전 반드시 `pytest tests/ -q` 통과 필수
- CI가 실패하면 자동 rollback됨
### 3. 타입 힌트 필수
- 모든 함수는 Python 타입 힌트 포함
- `def add(a, b):``def add(a: int, b: int) -> int:`
---
# [현재 태스크]
...

인스트럭션 효과 측정

지표측정 방법
반복 오류율동일 오류 발생 횟수 / 전체 루프 수
평균 루프 횟수태스크 완료까지 필요한 루프 수
컨텍스트 효율불필요한 탐색에 낭비되는 토큰 비율

실습 (Practicum)

  1. 오류 패턴 분석 스크립트

    이전 랩의 실행 로그를 분석하여 반복 오류 상위 5개를 추출한다.

  2. 인스트럭션 작성 및 추가

    각 반복 오류에 대해 결정론적 제약 문구를 작성하고 PROMPT.md에 추가한다.

  3. A/B 테스트

    동일한 태스크를 인스트럭션 추가 전/후로 실행하여 루프 횟수와 토큰 사용량을 비교한다.

과제 (Assignment)

Lab 06: 인스트럭션 튜닝 실습

제출 마감: 2026-04-15 23:59

요구사항:

  1. 반복 오류 분석 보고서 (최소 3가지 패턴)
  2. 고도화된 PROMPT.md (인스트럭션 섹션 포함)
  3. 튜닝 전/후 비교 실험 결과
  4. 인스트럭션 효과 정량 측정 그래프