Benchmark verificado en ejecución real

Un prompt.
14 universos.

Distintos LLMs y agentes de código recibieron el mismo reto: construir, en una sola pasada, una simulación 3D del Sistema Solar con BabylonJS. Esto es lo que entregaron.

Ver el ranking Explorar las 14 entregas
scroll ↓
El podio

Los tres mejores universos

Puntuación sobre 100 según una rúbrica de 10 criterios, contrastada con la ejecución real de cada simulación.

La galería

Las 14 entregas

Cada ficha es una combinación modelo + agente (indicada en el nombre de su carpeta). Pulsa una tarjeta para ver su radar de categorías, fortalezas, debilidades y abrir la demo en vivo.

Por puntuación Estética UI Órbitas Rendimiento
Todos S A B C D
Hallazgos

Lo que decidió el benchmark

☄️

La cola del cometa

El bug más discriminante: el vector "lejos del Sol" es cometa − Sol. Muchas entregas lo invirtieron y la cola acabó apuntando hacia el Sol. Acertarlo marcó la diferencia entre el tier S y el resto.

🎯

El Sol en el foco

Una elipse con el Sol centrado parece correcta pero es física falsa. Solo el grupo de cabeza lo situó en el foco de la órbita, como manda Kepler.

Instancing

250 asteroides son un caso de libro para createInstance. La mayoría creó cientos de mallas sueltas: cientos de draw calls y FPS por los suelos.

🧰

El agente pesa tanto como el modelo

El mismo LLM cambia de tier según su andamiaje: MiniMax M3 pasa de 79 a 92 al cambiar de agente. Planificar, consultar docs y auto‑verificar multiplica.

📚

Verificar la documentación

Quienes ignoraron la "regla absoluta" inventaron APIs (emissionRange, mesh.diameter) que se tradujeron en bugs visibles. Consultar docs no fue burocracia: fue corrección.

🔬

El juez‑LLM alucina; el runtime corrige

Una revisión estática declaró "pantalla negra" a una entrega que funcionaba con 279 objetos y 0 errores. Sin ejecución real, un benchmark de agentes no es fiable.

Conclusión

El estado del arte

14/14

entregas arrancan y renderizan una escena WebGL compleja en una sola pasada.

12/14

sin un solo error de consola al abrirlas en un navegador real.

~1.1k

líneas de media por entrega, todo en un único archivo autocontenido.

2

proveedores empatados en lo más alto: Claude Opus 4.8 y GPT‑5.5.

Generar one‑shot una experiencia 3D web compleja y autocontenida ha dejado de ser una hazaña: es el comportamiento esperable de un agente de código frontera. La pregunta ha cambiado de "¿puede escribir 1500 líneas de WebGL que ni siquiera lancen una excepción?" a "¿acierta los detalles difíciles?" — que el Sol va en el foco, que un vector tiene sentido, que 250 objetos piden instancing y que una API debe verificarse antes de usarse.

Los diferenciadores ya no son sintácticos sino de razonamiento: física, geometría y arquitectura de rendimiento. Y de forma reveladora, el agente/andamiaje pesa tanto como el modelo base: planificación, consulta de documentación y bucles de auto‑verificación convierten a un modelo competente en uno sobresaliente.

Queda además una lección sobre cómo medir a los agentes: el LLM‑as‑judge sobre código estático es rápido pero falible — llegó a declarar "rota" una entrega impecable. El estándar emergente, y el que aquí se aplica, es juzgar por ejecución: abrir la app, contar sus objetos, mirar su consola y capturar lo que el usuario realmente ve. El estado del arte de los agentes es excelente; el de su evaluación apenas empieza a ponerse a su altura.