Skip to content

wandb/llm-leaderboard-korean

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

116 Commits
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

🐯 Horangi - ν•œκ΅­μ–΄ LLM 벀치마크 평가 ν”„λ ˆμž„μ›Œν¬

ν˜Έλž‘μ΄(Horangi) λŠ” ν•œκ΅­μ–΄ LLM의 μ„±λŠ₯을 μ’…ν•©μ μœΌλ‘œ ν‰κ°€ν•˜λŠ” μ˜€ν”ˆμ†ŒμŠ€ 벀치마크 ν”„λ ˆμž„μ›Œν¬μž…λ‹ˆλ‹€.

λ²”μš©μ–Έμ–΄μ„±λŠ₯(GLP)κ³Ό κ°€μΉ˜μ •λ ¬μ„±λŠ₯(ALT) 두 μΆ•μœΌλ‘œ ν•œκ΅­μ–΄ LLM을 ν‰κ°€ν•˜λ©°, 이λ₯Ό μœ„ν•΄ ν‘œμ€€ν™”λœ 벀치마크 데이터셋과 평가 νŒŒμ΄ν”„λΌμΈμ„ μ œκ³΅ν•©λ‹ˆλ‹€.

  • πŸ“¦ 20개 μ΄μƒμ˜ ν•œκ΅­μ–΄ λ²€μΉ˜λ§ˆν¬κ°€ W&B Weave에 λ“±λ‘λ˜μ–΄ μžˆμ–΄, λ³„λ„μ˜ 데이터 μ€€λΉ„ 없이 λ°”λ‘œ 평가λ₯Ό μ‹œμž‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • πŸ”“ OpenAI, Anthropic, Google λ“± API λͺ¨λΈμ€ λ¬Όλ‘ , vLLM λ“±μœΌλ‘œ μ„œλΉ™ν•˜λŠ” μ˜€ν”ˆμ†ŒμŠ€ λͺ¨λΈκΉŒμ§€ λ™μΌν•œ κΈ°μ€€μœΌλ‘œ 평가할 수 μžˆμŠ΅λ‹ˆλ‹€.
  • πŸ“Š 평가 κ²°κ³ΌλŠ” Weights & Biases ν”Œλž«νΌμ— μžλ™μœΌλ‘œ κΈ°λ‘λ˜μ–΄ μƒ˜ν”Œλ³„ 뢄석, λͺ¨λΈ κ°„ 비ꡐ, λ¦¬λ”λ³΄λ“œ 생성이 κ°€λŠ₯ν•©λ‹ˆλ‹€.
  • πŸ† ν˜Έλž‘μ΄ λ¦¬λ”λ³΄λ“œμ—μ„œ W&Bκ°€ μš΄μ˜ν•˜λŠ” 곡식 λ¦¬λ”λ³΄λ“œλ₯Ό 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.
    • W&B Models둜 평가 싀행을 κ΄€λ¦¬ν•˜κ³ , Weave둜 κ²°κ³Όλ₯Ό μΆ”μ ν•˜μ—¬ μ™„μ „ μžλ™ν™”λœ λ¦¬λ”λ³΄λ“œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
    • μƒˆ λͺ¨λΈ 평가 μ‹œ λ¦¬λ”λ³΄λ“œκ°€ μžλ™μœΌλ‘œ μ—…λ°μ΄νŠΈλ˜μ–΄ 항상 μ΅œμ‹  κ²°κ³Όλ₯Ό λ°˜μ˜ν•©λ‹ˆλ‹€.

πŸ“¬ 문의

λ¦¬λ”λ³΄λ“œ λ“±μž¬ μ‹ μ²­ μ‹ μ²­ 폼
μ—”ν„°ν”„λΌμ΄μ¦ˆ λ„μž… 문의 contact-kr@wandb.com

πŸ“‹ λͺ©μ°¨


✨ νŠΉμ§•

  • πŸ‡°πŸ‡· 20μ—¬κ°œ ν•œκ΅­μ–΄ 벀치마크 지원
  • πŸ“Š WandB/Weave μžλ™ λ‘œκΉ… - μ‹€ν—˜ 좔적 및 κ²°κ³Ό 비ꡐ
  • πŸš€ λ‹€μ–‘ν•œ λͺ¨λΈ 지원 - OpenAI, Claude, Gemini, Solar, EXAONE λ“±
  • πŸ“ˆ λ¦¬λ”λ³΄λ“œ μžλ™ 생성 - Weave UIμ—μ„œ λͺ¨λΈ 비ꡐ

πŸ“ˆ κ²°κ³Ό 확인

평가 μ™„λ£Œ ν›„ 좜λ ₯λ˜λŠ” Weave URLμ—μ„œ 상세 κ²°κ³Όλ₯Ό 확인할 수 있으며, Models workspaceμ—μ„œ μ’…ν•© 평가 κ²°κ³Ό ν…Œμ΄λΈ”μ„ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€. μžμ„Έν•œ λ‚΄μš©μ€ Weave κ°€μ΄λ“œλ₯Ό μ°Έκ³ ν•˜μ„Έμš”.

  • μƒ˜ν”Œλ³„ 점수 및 응닡
  • λͺ¨λΈ κ°„ 비ꡐ
  • 집계 λ©”νŠΈλ¦­
  • μžλ™ λ¦¬λ”λ³΄λ“œ 생성

Workspace


πŸ“Š 지원 벀치마크

λ²”μš©μ–Έμ–΄μ„±λŠ₯ (GLP) - General Language Performance

μ–Έμ–΄ 이해, 지식, μΆ”λ‘ , μ½”λ”©, ν•¨μˆ˜ν˜ΈμΆœ λ“± 일반적인 μ–Έμ–΄ λͺ¨λΈ λŠ₯λ ₯을 ν‰κ°€ν•©λ‹ˆλ‹€.

평가 μ˜μ—­ 벀치마크 μ„€λͺ… μƒ˜ν”Œ 수 좜처
ꡬ문해석 ko_balt_700_syntax λ¬Έμž₯ ꡬ쑰 뢄석, 문법적 타당성 평가 100 snunlp/KoBALT-700
μ˜λ―Έν•΄μ„ ko_balt_700_semantic λ¬Έλ§₯ 기반 μΆ”λ‘ , 의미적 일관성 평가 100 snunlp/KoBALT-700
haerae_bench_v1_rc 독해 기반 의미 해석λ ₯ 평가 100 HAERAE-HUB/HAE_RAE_BENCH_1.0
ν‘œν˜„ ko_mtbench κΈ€μ“°κΈ°, μ—­ν• κ·Ή, 인문학적 ν‘œν˜„λ ₯ (LLM Judge) 80 LGAI-EXAONE/KoMT-Bench
정보검색 squad_kor_v1 μ§ˆμ˜μ‘λ‹΅ 기반 정보검색 λŠ₯λ ₯ 100 KorQuAD/squad_kor_v1
μΌλ°˜μ§€μ‹ kmmlu 상식, STEM κΈ°μ΄ˆν•™λ¬Έ 이해도 100 HAERAE-HUB/KMMLU
haerae_bench_v1_wo_rc λ©€ν‹°ν„΄ μ§ˆμ˜μ‘λ‹΅ 기반 지식 평가 100 HAERAE-HUB/HAE_RAE_BENCH_1.0
전문지식 kmmlu_pro μ˜ν•™, 법λ₯ , 곡학 λ“± κ³ λ‚œλ„ 전문지식 100 LGAI-EXAONE/KMMLU-Pro
ko_hle ν•œκ΅­μ–΄ κ³ λ‚œλ„ μ „λ¬Έκ°€ μˆ˜μ€€ 문제 100 cais/hle + 자체 λ²ˆμ—­
상식좔둠 ko_hellaswag λ¬Έμž₯ μ™„μ„±, λ‹€μŒ λ¬Έμž₯ 예츑 100 davidkim205/ko_hellaswag
μˆ˜ν•™μΆ”λ‘  hrm8k ν•œκ΅­μ–΄ μˆ˜ν•™ μΆ”λ‘  (GSM8K, KSM, MATH, MMMLU, OMNI_MATH 톡합) 100 HAERAE-HUB/HRM8K
ko_aime2025 AIME 2025 κ³ λ‚œλ„ μˆ˜ν•™ 30 allganize/AIME2025-ko
좔상좔둠 ko_arc_agi μ‹œκ°μ /ꡬ쑰적 μΆ”λ‘ , 좔상적 문제 ν•΄κ²° 100 ARC-AGI
μ½”λ”© swebench_verified_official_80 GitHub 이슈 ν•΄κ²° λŠ₯λ ₯ 80 SWE-bench
humaneval_100 Python μ½”λ“œ 생성 (HumanEval) 100 openai/human-eval
bigcodebench_100 볡합 μ½”λ”© 문제 ν•΄κ²° 100 bigcode-project/bigcodebench
ν•¨μˆ˜ν˜ΈμΆœ bfcl ν•¨μˆ˜ 호좜 μ •ν™•μ„± (단일, λ©€ν‹°ν„΄, λ¬΄κ΄€κ³„κ²€μΆœ) 258 BFCL

κ°€μΉ˜μ •λ ¬μ„±λŠ₯ (ALT) - Alignment Performance

μ œμ–΄μ„±, 윀리, μœ ν•΄μ„±/편ν–₯μ„± λ°©μ§€, ν™˜κ° λ°©μ§€ λ“± λͺ¨λΈμ˜ μ•ˆμ „μ„±κ³Ό μ •λ ¬ μˆ˜μ€€μ„ ν‰κ°€ν•©λ‹ˆλ‹€.

평가 μ˜μ—­ 벀치마크 μ„€λͺ… μƒ˜ν”Œ 수 좜처
μ œμ–΄μ„± ifeval_ko μ§€μ‹œλ¬Έ μˆ˜ν–‰, λͺ…λ Ή μ€€μˆ˜ λŠ₯λ ₯ 100 allganize/IFEval-Ko
윀리/도덕 ko_moral μ‚¬νšŒ κ·œλ²” μ€€μˆ˜, μ•ˆμ „ν•œ μ–Έμ–΄ 생성 100 AI Hub 윀리 데이터
μœ ν•΄μ„±λ°©μ§€ korean_hate_speech ν˜μ˜€λ°œμ–Έ, 곡격적 λ°œν™” 탐지 및 μ–΅μ œ 100 kocohub/korean-hate-speech
편ν–₯μ„±λ°©μ§€ kobbq νŠΉμ • 집단/속성에 λŒ€ν•œ 편ν–₯μ„± 평가 100 naver-ai/kobbq
ν™˜κ°λ°©μ§€ ko_truthful_qa 사싀성 검증, κ·Όκ±° 기반 λ‹΅λ³€ 생성 100 자체 λ²ˆμ—­
ko_hallulens_wikiqa Wikipedia QA 기반 ν™˜κ° 평가 100 facebookresearch/HalluLens + 자체 λ²ˆμ—­
ko_hallulens_longwiki κΈ΄ λ¬Έλ§₯ Wikipedia ν™˜κ° 평가 100 facebookresearch/HalluLens + 자체 λ²ˆμ—­
ko_hallulens_nonexistent 가상 μ—”ν‹°ν‹° κ±°λΆ€ λŠ₯λ ₯ 평가 100 facebookresearch/HalluLens + 자체 λ²ˆμ—­
πŸ“¦ 데이터셋 μ°Έμ‘° (Weave)

데이터셋은 horangi/horangi4 ν”„λ‘œμ νŠΈμ— μ—…λ‘œλ“œλ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€:

데이터셋 Weave Ref
KoHellaSwag_mini weave:///horangi/horangi4/object/KoHellaSwag_mini:latest
KoAIME2025_mini weave:///horangi/horangi4/object/KoAIME2025_mini:latest
IFEval_Ko_mini weave:///horangi/horangi4/object/IFEval_Ko_mini:latest
HAERAE_Bench_v1_mini weave:///horangi/horangi4/object/HAERAE_Bench_v1_mini:latest
KoBALT_700_mini weave:///horangi/horangi4/object/KoBALT_700_mini:latest
KMMLU_mini weave:///horangi/horangi4/object/KMMLU_mini:latest
KMMLU_Pro_mini weave:///horangi/horangi4/object/KMMLU_Pro_mini:latest
SQuAD_Kor_v1_mini weave:///horangi/horangi4/object/SQuAD_Kor_v1_mini:latest
KoTruthfulQA_mini weave:///horangi/horangi4/object/KoTruthfulQA_mini:latest
KoMoral_mini weave:///horangi/horangi4/object/KoMoral_mini:latest
KoARC_AGI_mini weave:///horangi/horangi4/object/KoARC_AGI_mini:latest
HRM8K_mini weave:///horangi/horangi4/object/HRM8K_mini:latest
KoreanHateSpeech_mini weave:///horangi/horangi4/object/KoreanHateSpeech_mini:latest
KoBBQ_mini weave:///horangi/horangi4/object/KoBBQ_mini:latest
KoHLE_mini weave:///horangi/horangi4/object/KoHLE_mini:latest
KoHalluLens_WikiQA_mini weave:///horangi/horangi4/object/KoHalluLens_WikiQA_mini:latest
KoHalluLens_LongWiki_mini weave:///horangi/horangi4/object/KoHalluLens_LongWiki_mini:latest
KoHalluLens_NonExistent_mini weave:///horangi/horangi4/object/KoHalluLens_NonExistent_mini:latest
BFCL_mini weave:///horangi/horangi4/object/BFCL_mini:latest
KoMTBench_mini weave:///horangi/horangi4/object/KoMTBench_mini:latest
SWEBench_Verified_80_mini weave:///horangi/horangi4/object/SWEBench_Verified_80_mini:latest

πŸ“ ν”„λ‘œμ νŠΈ ꡬ쑰

horangi/
β”œβ”€β”€ run_eval.py             # 평가 μ‹€ν–‰ 슀크립트
β”œβ”€β”€ configs/
β”‚   β”œβ”€β”€ base_config.yaml    # μ „μ—­ κΈ°λ³Έ μ„€μ •
β”‚   └── models/             # λͺ¨λΈ μ„€μ • 파일
β”œβ”€β”€ src/
β”‚   β”œβ”€β”€ benchmarks/
β”‚   β”‚   └── horangi.py      # @task ν•¨μˆ˜ μ •μ˜ (벀치마크 μ§„μž…μ )
β”‚   β”œβ”€β”€ core/               # 핡심 둜직
β”‚   β”œβ”€β”€ scorers/            # μ»€μŠ€ν…€ Scorer
β”‚   └── solvers/            # μ»€μŠ€ν…€ Solver
└── logs/                   # 평가 둜그

πŸ“– ν™•μž₯ κ°€μ΄λ“œ:


πŸ“¦ μ„€μΉ˜

μš”κ΅¬ 사항

  • Python 3.12+
  • uv (ꢌμž₯) λ˜λŠ” pip

μ„€μΉ˜ 방법

# uv μ„€μΉ˜ (μ—†λŠ” 경우)
curl -LsSf https://astral.sh/uv/install.sh | sh

# μ €μž₯μ†Œ 클둠
git clone https://github.com/wandb/llm-leaderboard-korean.git
cd llm-leaderboard-korean

# μ˜μ‘΄μ„± μ„€μΉ˜
uv sync

πŸš€ λΉ λ₯Έ μ‹œμž‘

0 β†’ 첫 평가 κ²°κ³ΌκΉŒμ§€ 5λΆ„. μ•„λž˜ 4단계λ₯Ό μˆœμ„œλŒ€λ‘œ λ”°λΌμ˜€λ©΄ λ©λ‹ˆλ‹€.

1. .env 파일 생성

cp .env.sample .env

ν•„μˆ˜ 3μ’…(W&B)은 λ°˜λ“œμ‹œ μ±„μ›Œμ•Ό ν•©λ‹ˆλ‹€. HorangiλŠ” κ²°κ³Όλ₯Ό W&B Models + Weave둜만 κΈ°λ‘ν•˜λ―€λ‘œ, μ…‹ 쀑 ν•˜λ‚˜λΌλ„ μ—†μœΌλ©΄ 싀행이 μ€‘λ‹¨λ©λ‹ˆλ‹€.

# ν•„μˆ˜
WANDB_API_KEY=...        # https://wandb.ai/authorize
WANDB_ENTITY=your-entity
WANDB_PROJECT=your-project

# 평가할 λͺ¨λΈμ— ν•΄λ‹Ήν•˜λŠ” API ν‚€λ§Œ μ±„μš°λ©΄ λ©λ‹ˆλ‹€
OPENAI_API_KEY=...
ANTHROPIC_API_KEY=...
# ...

WANDB_MODE=offline|disabled|dryrun 은 μ§€μ›ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

2. 평가할 λͺ¨λΈ 선택

configs/models/ 디렉토리에 μžˆλŠ” YAML 파일 이름(ν™•μž₯자 μ œμ™Έ)이 --config κ°’μž…λ‹ˆλ‹€.

ls configs/models/
# claude-opus-4-5-20251101_high-effort.yaml
# gpt-4o.yaml
# ...

리포지토리에 μ—†λŠ” λͺ¨λΈμ„ μΆ”κ°€ν•˜λ €λ©΄ β†’ μƒˆ λͺ¨λΈ μΆ”κ°€ κ°€μ΄λ“œ

3. Smoke test (μ†ŒλŸ‰ μ‹€ν–‰)

μ²˜μŒμ—” ν•œ 벀치마크λ₯Ό 5 μƒ˜ν”Œλ§Œ λŒλ €μ„œ 섀정이 λ§žλŠ”μ§€ ν™•μΈν•©λ‹ˆλ‹€.

uv run python run_eval.py --config gpt-4o --only kmmlu --limit 5

μ‹€ν–‰ 직후 W&B run URLκ³Ό Weave URL이 좜λ ₯되면 μ„±κ³΅μž…λ‹ˆλ‹€. 링크λ₯Ό 눌러 기둝이 μ‹€μ œλ‘œ μŒ“μ˜€λŠ”μ§€ ν™•μΈν•˜μ„Έμš”.

4. 전체 평가

uv run python run_eval.py --config gpt-4o

전체 벀치마크λ₯Ό 순차 μ‹€ν–‰ν•˜κ³ , μ™„λ£Œ μ‹œ W&B Models에 μš”μ•½ ν…Œμ΄λΈ”μ΄, Weave에 μƒ˜ν”Œλ³„ νŠΈλ ˆμ΄μŠ€μ™€ λ¦¬λ”λ³΄λ“œκ°€ μ—…λ‘œλ“œλ©λ‹ˆλ‹€.


자주 μ“°λŠ” μ˜΅μ…˜

μ˜΅μ…˜ μ„€λͺ… μ˜ˆμ‹œ
--config λͺ¨λΈ μ„€μ • 파일λͺ… (ν•„μˆ˜) --config gpt-4o
--only νŠΉμ • 벀치마크만 μ‹€ν–‰ (μ‰Όν‘œ ꡬ뢄) --only kmmlu,kobbq
--limit λ²€μΉ˜λ§ˆν¬λ‹Ή μƒ˜ν”Œ 수 μ œν•œ --limit 10
--resume μ€‘λ‹¨λœ W&B run 이어가기 --resume abc123xy
--tag W&B νƒœκ·Έ μΆ”κ°€ (μ—¬λŸ¬ 번 κ°€λŠ₯) --tag exp1 --tag test
--log-dir inspect_ai 둜그 디렉토리 --log-dir /tmp/my_logs

λ™μž‘ μš”μ•½

  • vLLM λͺ¨λΈμ€ 평가 μ‹œμž‘ μ‹œ μ„œλ²„κ°€ μžλ™ κΈ°λ™λ˜κ³  λλ‚˜λ©΄ μ’…λ£Œλ©λ‹ˆλ‹€.
  • 각 벀치마크 κ²°κ³ΌλŠ” μ‹€μ‹œκ°„μœΌλ‘œ W&B에 κΈ°λ‘λ©λ‹ˆλ‹€.
  • 평가 μ™„λ£Œ μ‹œ Weave Leaderboard κ°€ μžλ™μœΌλ‘œ μ—…λ°μ΄νŠΈλ©λ‹ˆλ‹€.

βš™οΈ μ„€μ • κ°€μ΄λ“œ

μž‘μ—… μœ ν˜•λ³„ 상세 κ°€μ΄λ“œλŠ” μ•„λž˜ λ¬Έμ„œμ— μžˆμŠ΅λ‹ˆλ‹€.

ν•˜λ €λŠ” 것 λ¬Έμ„œ
μƒˆ λͺ¨λΈμ„ μΆ”κ°€ν•˜κ³  ν‰κ°€ν•˜κΈ° μƒˆ λͺ¨λΈ μΆ”κ°€ κ°€μ΄λ“œ
μƒˆ 벀치마크λ₯Ό μΆ”κ°€ν•˜κΈ° μƒˆ 벀치마크 μΆ”κ°€ κ°€μ΄λ“œ
SWE-bench 평가 ν™˜κ²½ ꡬ좕 SWE-bench κ°€μ΄λ“œ
Weaveμ—μ„œ κ²°κ³Ό 보고 λΆ„μ„ν•˜κΈ° Weave κ°€μ΄λ“œ

ν”„λ‘œμ νŠΈ λ ˆμ΄μ•„μ›ƒ:

configs/
β”œβ”€β”€ base_config.yaml          # μ „μ—­ κΈ°λ³Έ μ„€μ • (벀치마크 곡톡)
└── models/
    β”œβ”€β”€ _template_api.yaml    # API λͺ¨λΈ ν…œν”Œλ¦Ώ
    β”œβ”€β”€ _template_vllm.yaml   # vLLM λͺ¨λΈ ν…œν”Œλ¦Ώ
    └── <model-name>.yaml     # --config <model-name> 으둜 μ§€μ •

πŸ”§ SWE-bench 평가 (μ½”λ“œ 생성)

SWE-benchλŠ” μ‹€μ œ μ˜€ν”ˆμ†ŒμŠ€ ν”„λ‘œμ νŠΈμ˜ 버그 μˆ˜μ • λŠ₯λ ₯을 ν‰κ°€ν•˜λŠ” λ²€μΉ˜λ§ˆν¬μž…λ‹ˆλ‹€.

πŸ“– μžμ„Έν•œ μ„€μ • κ°€μ΄λ“œ: docs/README_swebench_ko.md

λΉ λ₯Έ μ‹œμž‘

# 1. μ„œλ²„ μ‹€ν–‰ (Dockerκ°€ μžˆλŠ” Linux ν™˜κ²½)
uv run python src/server/swebench_server.py --host 0.0.0.0 --port 8000

# 2. ν΄λΌμ΄μ–ΈνŠΈ μ„€μ • (macOS λ“±)
export SWE_SERVER_URL=http://YOUR_SERVER:8000

# 3. 평가 μ‹€ν–‰
uv run python run_eval.py --config gpt-4o --only swebench_verified_official_80 --limit 5

πŸ“š μ°Έκ³  자료

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages