Research Report · 2026.05.24

OpenRouter 코딩 모델 × Cerebras Inference 비교

가격 · 속도 · 코딩 성능 한 페이지 정리. 출처는 하단 참고.

TL;DR

1. OpenRouter 코딩 모델 Top (SWE-bench 기준)

표 헤더 클릭으로 정렬

모델 제공자 SWE-bench 속도 (t/s) TTFT 입력 $/1M 출력 $/1M Context 비고
GPT-5.5 OpenAI 88.7% 72 112s ⚠️ $5.00 $30.00 200K 최강. TTFT는 xhigh reasoning 기준 (일반은 ~3s).
Claude Opus 4.7 Anthropic 87.6% 50 11.7s $5.00 $25.00 1M agentic·도구 사용 강세, 1M context.
Gemini 3.1 Pro Google 80.6% 136 32.4s $2.00 $12.00 1M 가치+속도 균형. 대형 코드베이스.
DeepSeek V4 Pro DeepSeek 80.6% 36 1.81s $0.435 $0.87 1M 최강 가성비. 빠른 TTFT.
Kimi K2.6 Moonshot AI 80.2% 66 2.22s $0.75 $3.50 128K tool use 우수. 균형 잡힌 모델.
DeepSeek V3.2 DeepSeek ~GPT-5 class ~40 ~2s $0.28 $0.42 128K 효율 + agentic.
Qwen3 Coder Alibaba 미발표 135 1.37s FREE FREE 1M 속도+무료+1M. 프로토타이핑 최강.
Kimi K2 Moonshot AI 미발표 ~55 ~2.5s $0.60 $2.50 128K OpenRouter 코딩 토큰 점유율 상위.

출처: Artificial Analysis (~지난 72시간 median). TTFT = Time-to-First-Token. GPT-5.5의 112s는 xhigh reasoning 모드(추론 시간 포함) — 일반 reasoning_effort=medium 시 ~3-5s.

2. Cerebras Inference 모델 (속도 우위)

~$0.10 ~ $2.30/1M · 한 자리수 latency · 코딩 라인업 4종

모델 출력 속도 (t/s) First Token 입력 $/1M 출력 $/1M Context 코딩 적합도
gpt-oss-120b (high) ~2,000-2,065 ~0.5s $0.35 $0.75 131K ★★★★★ 코딩·reasoning 균형. 권장.
gpt-oss-120b (low) ~1,665-1,887 ~0.5s $0.35 $0.75 131K ★★★★ 빠른 응답·낮은 reasoning.
Qwen3 235B Instruct ~1,400 ~0.6s $0.60 $1.20 131K ★★★★ Qwen 코딩 SOTA, 중국어·다국어.
GLM-4.7 (Z.ai) ~1,150-1,346 0.46s $2.30 (blended) 131K ★★★★ Intelligence Index 최상위 (42).
Llama 3.1 8B 2,353 (최고속) 0.53s $0.10 (blended) 128K ★★ 소형. 분류·요약·도구 라우팅용.

3. Critical Trade-off

속도 vs 성능

OpenRouter 최상위: Gemini 3.1 Pro 136 t/s, Qwen3 Coder 135 t/s, GPT-5.5 72 t/s, Opus 4.7 50 t/s. Cerebras gpt-oss-120b2,000 t/s — Opus 대비 40×. 인터랙티브 보조 = Cerebras, 자율 agent·복잡 리팩토링 = Opus/GPT-5.5.

가격 곡선

$0.10 (Cerebras Llama-8B) → $30 (GPT-5.5 출력). 300× 차이. SWE-bench 88.7% vs 75% 격차는 13%p. 99% 작업은 가성비 모델로 충분, 1% 어려운 작업만 frontier 호출하는 게 합리적.

Context window

1M context = Opus 4.7, Gemini 3.1 Pro, DeepSeek V4 Pro, Qwen3 Coder. Cerebras는 131K cap. 전체 monorepo 분석은 OpenRouter 1M 모델, 단일 파일 hot loop는 Cerebras.

2026 트렌드

중국 모델(Qwen·Kimi·DeepSeek·GLM)이 OpenRouter 토큰의 45%+ 점유. 가성비 격차가 좁아져 frontier lab의 가격 압박. open-weight + 빠른 inference 조합이 새 표준.

4. 활용 가이드 (어디살지 프로젝트 기준)

유스케이스1순위2순위이유
대규모 monorepo 리팩토링 (헥사고날 경계 검증) Claude Opus 4.7 (1M) Gemini 3.1 Pro 1M context + agentic. tool use 신뢰도.
FastAPI/SQLAlchemy use_case 신규 작성 GPT-5.5 DeepSeek V4 Pro SWE-bench 88.7%, 정확한 타입·async pattern.
일상 코드 보조 (Cursor·Zed inline) Cerebras gpt-oss-120b Kimi K2.6 2,000 t/s — 타이핑 속도 추월. UX 차원이 다름.
대량 코드 리뷰·분류 (CI 자동화) DeepSeek V3.2 Qwen3 Coder (FREE) $0.28/1M. 1만 PR도 부담 없음.
로컬 dev 빠른 prototype Qwen3 Coder (FREE) Cerebras Llama-8B 비용 0, 1M context.
한국어 도메인 (계약·매물) 코딩 Claude Opus 4.7 Qwen3 235B (Cerebras) 한국어 자연스러움 + 코드 품질.

출처