Distintos LLMs y agentes de código recibieron el mismo reto: construir, en una sola pasada, una simulación 3D del Sistema Solar con BabylonJS. Esto es lo que entregaron.
Puntuación sobre 100 según una rúbrica de 10 criterios, contrastada con la ejecución real de cada simulación.
Cada ficha es una combinación modelo + agente (indicada en el nombre de su carpeta). Pulsa una tarjeta para ver su radar de categorías, fortalezas, debilidades y abrir la demo en vivo.
El bug más discriminante: el vector "lejos del Sol" es cometa − Sol. Muchas entregas lo invirtieron y la cola acabó apuntando hacia el Sol. Acertarlo marcó la diferencia entre el tier S y el resto.
Una elipse con el Sol centrado parece correcta pero es física falsa. Solo el grupo de cabeza lo situó en el foco de la órbita, como manda Kepler.
250 asteroides son un caso de libro para createInstance. La mayoría creó cientos de mallas sueltas: cientos de draw calls y FPS por los suelos.
El mismo LLM cambia de tier según su andamiaje: MiniMax M3 pasa de 79 a 92 al cambiar de agente. Planificar, consultar docs y auto‑verificar multiplica.
Quienes ignoraron la "regla absoluta" inventaron APIs (emissionRange, mesh.diameter) que se tradujeron en bugs visibles. Consultar docs no fue burocracia: fue corrección.
Una revisión estática declaró "pantalla negra" a una entrega que funcionaba con 279 objetos y 0 errores. Sin ejecución real, un benchmark de agentes no es fiable.
entregas arrancan y renderizan una escena WebGL compleja en una sola pasada.
sin un solo error de consola al abrirlas en un navegador real.
líneas de media por entrega, todo en un único archivo autocontenido.
proveedores empatados en lo más alto: Claude Opus 4.8 y GPT‑5.5.
Generar one‑shot una experiencia 3D web compleja y autocontenida ha dejado de ser una hazaña: es el comportamiento esperable de un agente de código frontera. La pregunta ha cambiado de "¿puede escribir 1500 líneas de WebGL que ni siquiera lancen una excepción?" a "¿acierta los detalles difíciles?" — que el Sol va en el foco, que un vector tiene sentido, que 250 objetos piden instancing y que una API debe verificarse antes de usarse.
Queda además una lección sobre cómo medir a los agentes: el LLM‑as‑judge sobre código estático es rápido pero falible — llegó a declarar "rota" una entrega impecable. El estándar emergente, y el que aquí se aplica, es juzgar por ejecución: abrir la app, contar sus objetos, mirar su consola y capturar lo que el usuario realmente ve. El estado del arte de los agentes es excelente; el de su evaluación apenas empieza a ponerse a su altura.