OpenRouter Coding LLM × Cerebras 비교

TL;DR

최강 코딩 성능 — OpenAI GPT-5.5 (SWE-bench 88.7%), Anthropic Claude Opus 4.7 (87.6%).
가성비 SOTA — DeepSeek V4 Pro (SWE-bench 80.6% · $0.44/$0.87) — Opus 대비 1/30 가격에 7%p 격차.
중간급 균형 — Gemini 3.1 Pro ($2/$12) · Kimi K2.6 ($0.75/$3.5) — agentic + 멀티모달.
무료 최강 — Qwen3 Coder (1M context, FREE) — 프로토타이핑·대규모 컨텍스트 분석용.
Cerebras 우위 — 속도. gpt-oss-120b가 ~2,000 t/s (일반 클라우드 대비 10–20×). 코딩 모델 라인업은 4종으로 좁음.
추천 조합 — 인터랙티브 코딩 = Cerebras gpt-oss-120b, 고난도 리팩토링·아키텍처 = Opus 4.7 / GPT-5.5, 자동화 배치 = DeepSeek V4 Pro.

1. OpenRouter 코딩 모델 Top (SWE-bench 기준)

표 헤더 클릭으로 정렬

모델	제공자	SWE-bench	속도 (t/s)	TTFT	입력 $/1M	출력 $/1M	Context	비고
GPT-5.5	OpenAI	88.7%	72	112s ⚠️	$5.00	$30.00	200K	최강. TTFT는 xhigh reasoning 기준 (일반은 ~3s).
Claude Opus 4.7	Anthropic	87.6%	50	11.7s	$5.00	$25.00	1M	agentic·도구 사용 강세, 1M context.
Gemini 3.1 Pro	Google	80.6%	136	32.4s	$2.00	$12.00	1M	가치+속도 균형. 대형 코드베이스.
DeepSeek V4 Pro	DeepSeek	80.6%	36	1.81s	$0.435	$0.87	1M	최강 가성비. 빠른 TTFT.
Kimi K2.6	Moonshot AI	80.2%	66	2.22s	$0.75	$3.50	128K	tool use 우수. 균형 잡힌 모델.
DeepSeek V3.2	DeepSeek	~GPT-5 class	~40	~2s	$0.28	$0.42	128K	효율 + agentic.
Qwen3 Coder	Alibaba	미발표	135	1.37s	FREE	FREE	1M	속도+무료+1M. 프로토타이핑 최강.
Kimi K2	Moonshot AI	미발표	~55	~2.5s	$0.60	$2.50	128K	OpenRouter 코딩 토큰 점유율 상위.

출처: Artificial Analysis (~지난 72시간 median). TTFT = Time-to-First-Token. GPT-5.5의 112s는 xhigh reasoning 모드(추론 시간 포함) — 일반 reasoning_effort=medium 시 ~3-5s.

2. Cerebras Inference 모델 (속도 우위)

~$0.10 ~ $2.30/1M · 한 자리수 latency · 코딩 라인업 4종

모델	출력 속도 (t/s)	First Token	입력 $/1M	출력 $/1M	Context	코딩 적합도
gpt-oss-120b (high)	~2,000-2,065	~0.5s	$0.35	$0.75	131K	★★★★★ 코딩·reasoning 균형. 권장.
gpt-oss-120b (low)	~1,665-1,887	~0.5s	$0.35	$0.75	131K	★★★★ 빠른 응답·낮은 reasoning.
Qwen3 235B Instruct	~1,400	~0.6s	$0.60	$1.20	131K	★★★★ Qwen 코딩 SOTA, 중국어·다국어.
GLM-4.7 (Z.ai)	~1,150-1,346	0.46s	$2.30 (blended)	—	131K	★★★★ Intelligence Index 최상위 (42).
Llama 3.1 8B	2,353 (최고속)	0.53s	$0.10 (blended)	—	128K	★★ 소형. 분류·요약·도구 라우팅용.

3. Critical Trade-off

속도 vs 성능

OpenRouter 최상위: Gemini 3.1 Pro 136 t/s, Qwen3 Coder 135 t/s, GPT-5.5 72 t/s, Opus 4.7 50 t/s. Cerebras gpt-oss-120b는 2,000 t/s — Opus 대비 40×. 인터랙티브 보조 = Cerebras, 자율 agent·복잡 리팩토링 = Opus/GPT-5.5.

가격 곡선

$0.10 (Cerebras Llama-8B) → $30 (GPT-5.5 출력). 300× 차이. SWE-bench 88.7% vs 75% 격차는 13%p. 99% 작업은 가성비 모델로 충분, 1% 어려운 작업만 frontier 호출하는 게 합리적.

Context window

1M context = Opus 4.7, Gemini 3.1 Pro, DeepSeek V4 Pro, Qwen3 Coder. Cerebras는 131K cap. 전체 monorepo 분석은 OpenRouter 1M 모델, 단일 파일 hot loop는 Cerebras.

2026 트렌드

중국 모델(Qwen·Kimi·DeepSeek·GLM)이 OpenRouter 토큰의 45%+ 점유. 가성비 격차가 좁아져 frontier lab의 가격 압박. open-weight + 빠른 inference 조합이 새 표준.

4. 활용 가이드 (어디살지 프로젝트 기준)

유스케이스	1순위	2순위	이유
대규모 monorepo 리팩토링 (헥사고날 경계 검증)	Claude Opus 4.7 (1M)	Gemini 3.1 Pro	1M context + agentic. tool use 신뢰도.
FastAPI/SQLAlchemy use_case 신규 작성	GPT-5.5	DeepSeek V4 Pro	SWE-bench 88.7%, 정확한 타입·async pattern.
일상 코드 보조 (Cursor·Zed inline)	Cerebras gpt-oss-120b	Kimi K2.6	2,000 t/s — 타이핑 속도 추월. UX 차원이 다름.
대량 코드 리뷰·분류 (CI 자동화)	DeepSeek V3.2	Qwen3 Coder (FREE)	$0.28/1M. 1만 PR도 부담 없음.
로컬 dev 빠른 prototype	Qwen3 Coder (FREE)	Cerebras Llama-8B	비용 0, 1M context.
한국어 도메인 (계약·매물) 코딩	Claude Opus 4.7	Qwen3 235B (Cerebras)	한국어 자연스러움 + 코드 품질.