¿Qué es Universo-Arena?

Un benchmark abierto donde 14 combinaciones de LLM + agente de código implementan el mismo reto: una simulación 3D del Sistema Solar en BabylonJS, como un único index.html autocontenido. Cada entrega se puntúa con una rúbrica de 100 puntos y ejecución real en navegador.

¿Qué combinación obtuvo la mejor puntuación?

GPT-5.5 · Codex y Claude Opus 4.8 · Ultracode + Claude Code empatan en cabeza con 97/100 (tier S).

¿Cómo se evalúa cada entrega?

Con tres señales: una rúbrica de 10 categorías (100 puntos), ejecución real en Chrome headless que mide número de objetos 3D, FPS y errores de consola, y una calibración adversarial corregida por datos de runtime.

¿El benchmark es reproducible y de código abierto?

Sí. El código de cada entrega, los datos crudos (benchmark.json y runtime.json) y el arnés de captura están versionados en GitHub bajo licencia MIT.

Universo-Arena · Benchmark de LLMs + Agentes de Código

El podio

Los tres mejores universos

Puntuación sobre 100 según una rúbrica de 10 criterios, contrastada con la ejecución real de cada simulación.

La galería

Las 14 entregas

Cada ficha es una combinación modelo + agente (indicada en el nombre de su carpeta). Pulsa una tarjeta para ver su radar de categorías, fortalezas, debilidades y abrir la demo en vivo.

Hallazgos

Lo que decidió el benchmark

☄️

La cola del cometa

El bug más discriminante: el vector "lejos del Sol" es cometa − Sol. Muchas entregas lo invirtieron y la cola acabó apuntando hacia el Sol. Acertarlo marcó la diferencia entre el tier S y el resto.

🎯

El Sol en el foco

Una elipse con el Sol centrado parece correcta pero es física falsa. Solo el grupo de cabeza lo situó en el foco de la órbita, como manda Kepler.

⚡

Instancing

250 asteroides son un caso de libro para createInstance. La mayoría creó cientos de mallas sueltas: cientos de draw calls y FPS por los suelos.

🧰

El agente pesa tanto como el modelo

El mismo LLM cambia de tier según su andamiaje: MiniMax M3 pasa de 79 a 92 al cambiar de agente. Planificar, consultar docs y auto‑verificar multiplica.

📚

Verificar la documentación

Quienes ignoraron la "regla absoluta" inventaron APIs (emissionRange, mesh.diameter) que se tradujeron en bugs visibles. Consultar docs no fue burocracia: fue corrección.

🔬

El juez‑LLM alucina; el runtime corrige

Una revisión estática declaró "pantalla negra" a una entrega que funcionaba con 279 objetos y 0 errores. Sin ejecución real, un benchmark de agentes no es fiable.

Conclusión

El estado del arte

14/14

entregas arrancan y renderizan una escena WebGL compleja en una sola pasada.

12/14

sin un solo error de consola al abrirlas en un navegador real.

~1.1k

líneas de media por entrega, todo en un único archivo autocontenido.

2

proveedores empatados en lo más alto: Claude Opus 4.8 y GPT‑5.5.

Generar one‑shot una experiencia 3D web compleja y autocontenida ha dejado de ser una hazaña: es el comportamiento esperable de un agente de código frontera. La pregunta ha cambiado de "¿puede escribir 1500 líneas de WebGL que ni siquiera lancen una excepción?" a "¿acierta los detalles difíciles?" — que el Sol va en el foco, que un vector tiene sentido, que 250 objetos piden instancing y que una API debe verificarse antes de usarse.

Los diferenciadores ya no son sintácticos sino de razonamiento: física, geometría y arquitectura de rendimiento. Y de forma reveladora, el agente/andamiaje pesa tanto como el modelo base: planificación, consulta de documentación y bucles de auto‑verificación convierten a un modelo competente en uno sobresaliente.

Queda además una lección sobre cómo medir a los agentes: el LLM‑as‑judge sobre código estático es rápido pero falible — llegó a declarar "rota" una entrega impecable. El estándar emergente, y el que aquí se aplica, es juzgar por ejecución: abrir la app, contar sus objetos, mirar su consola y capturar lo que el usuario realmente ve. El estado del arte de los agentes es excelente; el de su evaluación apenas empieza a ponerse a su altura.