# Universo-Arena

> Benchmark abierto y reproducible: 14 combinaciones de **LLM + agente de código** implementan el *mismo* reto —una simulación 3D del Sistema Solar en BabylonJS, como un único `index.html` autocontenido— y se puntúan y rankean. Licencia MIT.

Sitio: https://universo-arena.alexanderoviedofadul.dev/
Repositorio: https://github.com/bladealex9848/Universo-Arena
Autor: Alexander Oviedo Fadul
Idioma: español

## Qué mide

Cada entrega recibe el mismo prompt maestro y se evalúa con **tres señales**:
1. Rúbrica de 100 puntos repartidos en 10 categorías (completitud de escena, fidelidad orbital, cometa Halley, estética, panel UI, cámara, post-procesado, rendimiento, robustez, calidad de código).
2. Ejecución real en Chrome headless (SwiftShader): número de objetos 3D, FPS y errores de consola.
3. Calibración adversarial corregida por datos de runtime.

Las dos trampas de correctitud que más discriminan el ranking:
- El Sol debe estar en el **foco** de la elipse, no en el centro (`x = a·cosθ − a·e`).
- La **cola del cometa** debe apuntar en sentido **opuesto al Sol**, recalculada cada frame.

## Ranking (puntuación total, de mayor a menor)

🥇 97/100 (tier S) — GPT-5.5 · Codex — https://universo-arena.alexanderoviedofadul.dev/codex-gpt-5.5/index.html
🥈 97/100 (tier S) — Claude Opus 4.8 · Ultracode + Claude Code — https://universo-arena.alexanderoviedofadul.dev/Opus-4.8-Ultracode-Extension-Claude-Code/index.html
🥉 95/100 (tier S) — Claude Opus 4.8 · Claude Code — https://universo-arena.alexanderoviedofadul.dev/Opus-4.8-Claude-Code/index.html
4. 92/100 (tier S) — MiniMax M3 · Claude Code — https://universo-arena.alexanderoviedofadul.dev/Minimax-M3-Claude-Code/index.html
5. 89/100 (tier A) — Gemini 3.5 Flash · Antigravity CLI — https://universo-arena.alexanderoviedofadul.dev/Agy-Gemini-3.5-Flash-Antigravity-CLI/index.html
6. 89/100 (tier A) — GLM 5.2 · Claude Code — https://universo-arena.alexanderoviedofadul.dev/GLM-5.2-Claude-Code/index.html
7. 88/100 (tier A) — DeepSeek V4 Pro · CodeWhale — https://universo-arena.alexanderoviedofadul.dev/codewhale-deepseek-v4-pro/index.html
8. 86/100 (tier A) — Claude Sonnet 4.6 · Antigravity IDE — https://universo-arena.alexanderoviedofadul.dev/Claude-Sonnet-4.6-Antigravity-IDE/index.html
9. 80/100 (tier B) — Kimi K2.7 · Claude Code — https://universo-arena.alexanderoviedofadul.dev/Kimi-k.7-code-Claude-Code/index.html
10. 79/100 (tier B) — Kimi K2.7 · Kimi Code CLI — https://universo-arena.alexanderoviedofadul.dev/kimi-k2.7-code-Kimi-Code-CLI/index.html
11. 79/100 (tier B) — MiniMax M3 · mini-agent — https://universo-arena.alexanderoviedofadul.dev/mini-agent-MiniMax-M3/index.html
12. 78/100 (tier B) — DeepSeek V4 Pro · Pi Coding Agent — https://universo-arena.alexanderoviedofadul.dev/deepseek-v4-pro-Pi-Coding-Agent/index.html
13. 70/100 (tier C) — Devstral · Vibe — https://universo-arena.alexanderoviedofadul.dev/vibe-devstral/index.html
14. 54/100 (tier D) — Z.ai GLM 5.2 · Claude Code — https://universo-arena.alexanderoviedofadul.dev/Zai-GLM-5.2-Claude-Code/index.html

GPT-5.5 · Codex y Claude Opus 4.8 · Ultracode empatan en cabeza con 97/100.
14/14 entregas arrancan y renderizan; 12/14 sin un solo error de consola.

## Datos y documentación

- Datos crudos del ranking: https://universo-arena.alexanderoviedofadul.dev/assets/benchmark.json
- Datos objetivos de ejecución: https://universo-arena.alexanderoviedofadul.dev/assets/runtime.json
- Metodología, rúbrica, resultados y conclusiones: https://github.com/bladealex9848/Universo-Arena/tree/main/docs
- Reto implementado por todas las entregas: https://github.com/bladealex9848/Universo-Arena/blob/main/Prompt-Maestro_v2.txt

## Cómo citar

Universo-Arena (2026). Benchmark de LLMs + agentes de código sobre una simulación 3D
del Sistema Solar en BabylonJS. Alexander Oviedo Fadul. https://universo-arena.alexanderoviedofadul.dev/