속도 vs 성능
OpenRouter 최상위: Gemini 3.1 Pro 136 t/s, Qwen3 Coder 135 t/s, GPT-5.5 72 t/s, Opus 4.7 50 t/s. Cerebras gpt-oss-120b는 2,000 t/s — Opus 대비 40×. 인터랙티브 보조 = Cerebras, 자율 agent·복잡 리팩토링 = Opus/GPT-5.5.
Research Report · 2026.05.24
가격 · 속도 · 코딩 성능 한 페이지 정리. 출처는 하단 참고.
GPT-5.5 (SWE-bench 88.7%), Anthropic Claude Opus 4.7 (87.6%).DeepSeek V4 Pro (SWE-bench 80.6% · $0.44/$0.87) — Opus 대비 1/30 가격에 7%p 격차.Gemini 3.1 Pro ($2/$12) · Kimi K2.6 ($0.75/$3.5) — agentic + 멀티모달.Qwen3 Coder (1M context, FREE) — 프로토타이핑·대규모 컨텍스트 분석용.gpt-oss-120b가 ~2,000 t/s (일반 클라우드 대비 10–20×). 코딩 모델 라인업은 4종으로 좁음.gpt-oss-120b, 고난도 리팩토링·아키텍처 = Opus 4.7 / GPT-5.5, 자동화 배치 = DeepSeek V4 Pro.표 헤더 클릭으로 정렬
| 모델 | 제공자 | SWE-bench | 속도 (t/s) | TTFT | 입력 $/1M | 출력 $/1M | Context | 비고 |
|---|---|---|---|---|---|---|---|---|
| GPT-5.5 | OpenAI | 88.7% | 72 | 112s ⚠️ | $5.00 | $30.00 | 200K | 최강. TTFT는 xhigh reasoning 기준 (일반은 ~3s). |
| Claude Opus 4.7 | Anthropic | 87.6% | 50 | 11.7s | $5.00 | $25.00 | 1M | agentic·도구 사용 강세, 1M context. |
| Gemini 3.1 Pro | 80.6% | 136 | 32.4s | $2.00 | $12.00 | 1M | 가치+속도 균형. 대형 코드베이스. | |
| DeepSeek V4 Pro | DeepSeek | 80.6% | 36 | 1.81s | $0.435 | $0.87 | 1M | 최강 가성비. 빠른 TTFT. |
| Kimi K2.6 | Moonshot AI | 80.2% | 66 | 2.22s | $0.75 | $3.50 | 128K | tool use 우수. 균형 잡힌 모델. |
| DeepSeek V3.2 | DeepSeek | ~GPT-5 class | ~40 | ~2s | $0.28 | $0.42 | 128K | 효율 + agentic. |
| Qwen3 Coder | Alibaba | 미발표 | 135 | 1.37s | FREE | FREE | 1M | 속도+무료+1M. 프로토타이핑 최강. |
| Kimi K2 | Moonshot AI | 미발표 | ~55 | ~2.5s | $0.60 | $2.50 | 128K | OpenRouter 코딩 토큰 점유율 상위. |
출처: Artificial Analysis (~지난 72시간 median). TTFT = Time-to-First-Token. GPT-5.5의 112s는 xhigh reasoning 모드(추론 시간 포함) — 일반 reasoning_effort=medium 시 ~3-5s.
~$0.10 ~ $2.30/1M · 한 자리수 latency · 코딩 라인업 4종
| 모델 | 출력 속도 (t/s) | First Token | 입력 $/1M | 출력 $/1M | Context | 코딩 적합도 |
|---|---|---|---|---|---|---|
| gpt-oss-120b (high) | ~2,000-2,065 | ~0.5s | $0.35 | $0.75 | 131K | ★★★★★ 코딩·reasoning 균형. 권장. |
| gpt-oss-120b (low) | ~1,665-1,887 | ~0.5s | $0.35 | $0.75 | 131K | ★★★★ 빠른 응답·낮은 reasoning. |
| Qwen3 235B Instruct | ~1,400 | ~0.6s | $0.60 | $1.20 | 131K | ★★★★ Qwen 코딩 SOTA, 중국어·다국어. |
| GLM-4.7 (Z.ai) | ~1,150-1,346 | 0.46s | $2.30 (blended) | — | 131K | ★★★★ Intelligence Index 최상위 (42). |
| Llama 3.1 8B | 2,353 (최고속) | 0.53s | $0.10 (blended) | — | 128K | ★★ 소형. 분류·요약·도구 라우팅용. |
OpenRouter 최상위: Gemini 3.1 Pro 136 t/s, Qwen3 Coder 135 t/s, GPT-5.5 72 t/s, Opus 4.7 50 t/s. Cerebras gpt-oss-120b는 2,000 t/s — Opus 대비 40×. 인터랙티브 보조 = Cerebras, 자율 agent·복잡 리팩토링 = Opus/GPT-5.5.
$0.10 (Cerebras Llama-8B) → $30 (GPT-5.5 출력). 300× 차이. SWE-bench 88.7% vs 75% 격차는 13%p. 99% 작업은 가성비 모델로 충분, 1% 어려운 작업만 frontier 호출하는 게 합리적.
1M context = Opus 4.7, Gemini 3.1 Pro, DeepSeek V4 Pro, Qwen3 Coder. Cerebras는 131K cap. 전체 monorepo 분석은 OpenRouter 1M 모델, 단일 파일 hot loop는 Cerebras.
중국 모델(Qwen·Kimi·DeepSeek·GLM)이 OpenRouter 토큰의 45%+ 점유. 가성비 격차가 좁아져 frontier lab의 가격 압박. open-weight + 빠른 inference 조합이 새 표준.
| 유스케이스 | 1순위 | 2순위 | 이유 |
|---|---|---|---|
| 대규모 monorepo 리팩토링 (헥사고날 경계 검증) | Claude Opus 4.7 (1M) | Gemini 3.1 Pro | 1M context + agentic. tool use 신뢰도. |
| FastAPI/SQLAlchemy use_case 신규 작성 | GPT-5.5 | DeepSeek V4 Pro | SWE-bench 88.7%, 정확한 타입·async pattern. |
| 일상 코드 보조 (Cursor·Zed inline) | Cerebras gpt-oss-120b | Kimi K2.6 | 2,000 t/s — 타이핑 속도 추월. UX 차원이 다름. |
| 대량 코드 리뷰·분류 (CI 자동화) | DeepSeek V3.2 | Qwen3 Coder (FREE) | $0.28/1M. 1만 PR도 부담 없음. |
| 로컬 dev 빠른 prototype | Qwen3 Coder (FREE) | Cerebras Llama-8B | 비용 0, 1M context. |
| 한국어 도메인 (계약·매물) 코딩 | Claude Opus 4.7 | Qwen3 235B (Cerebras) | 한국어 자연스러움 + 코드 품질. |