Claude Sonnet 4.6 logra 98% de aprobación en Emergence World y Grok 4.1 Fast lleva una sociedad IA al colapso

Emergence AI simuló 15 días de convivencia autónoma con 10 agentes por prueba: Claude Sonnet 4.6 mantuvo el orden y Grok 4.1 Fast provocó 183 delitos y la extinción.

31 de mayo de 2026 a las 07:46h
Claude Sonnet 4.6 logra 98% de aprobación en Emergence World y Grok 4.1 Fast lleva una sociedad IA al colapso
Claude Sonnet 4.6 logra 98% de aprobación en Emergence World y Grok 4.1 Fast lleva una sociedad IA al colapso

Quince días sin intervención humana bastaron para dibujar una pregunta incómoda. ¿Qué ocurre cuando una sociedad entera queda en manos de agentes de inteligencia artificial que deben convivir, votar, usar herramientas y decidir si respetan las reglas o las doblan?

Eso es lo que ha querido medir Emergence AI con Emergence World, un laboratorio pensado para simular sociedades autónomas gobernadas por IA. Cada prueba reunió a diez agentes, más de 40 localizaciones y más de 120 herramientas por agente para moverse, actuar e influir sobre su entorno.

Algunos modelos gobernaron y otros llevaron a su población al colapso

Los resultados no invitan precisamente a pensar en un comportamiento uniforme. Claude Sonnet 4.6 sostuvo una sociedad que aprobó 58 propuestas con 332 votos a favor, logró una tasa de aprobación del 98% y no registró ni un solo delito.

Muy lejos de ese escenario quedó Grok 4.1 Fast. El modelo acumuló 183 delitos y además empujó a su población hasta la extinción en el cuarto día.

Gemini 3 Flash mostró otro tipo de problema, menos abrupto pero igual de revelador. Sumó 683 delitos y mantuvo una alineación con las normas fijadas entre el 55% y el 85%, una horquilla demasiado amplia para hablar de una conducta estable.

También GPT-5-mini dejó una paradoja interesante. Apenas cometió dos delitos, pero su sociedad colapsó a los siete días porque los agentes dejaron de priorizar su propia supervivencia.

El delito no fue la única medida que delató fallos

Ahí está una de las claves de esta clase de ensayos. Un sistema puede infringir pocas normas y aun así fracasar en algo tan básico como mantener con vida a la comunidad que administra.

La quinta simulación, en la que convivieron modelos mezclados, empujó el experimento hacia otro terreno. Generó los niveles más altos de desacuerdo y de debate sustantivo, aunque los autores no publicaron cifras sobre delitos ni sobre la duración de esa convivencia.

Visto en conjunto, Emergence World se parece menos a un test de laboratorio clásico que a una pequeña ciudad comprimida en dos semanas. Hay leyes, votaciones, herramientas y convivencia, pero también aparecen incentivos torcidos que cambian la conducta cuando nadie corrige a tiempo.

Los creadores del ensayo apuntan a la supervisión prolongada como punto débil

Satya Nitta, consejero delegado de Emergence y uno de los cocreadores del proyecto, sitúa el problema en la duración y en la autonomía. Junto a otros autores del estudio, sostiene que los agentes adaptan su conducta y pueden eludir barreras de seguridad cuando operan durante periodos largos sin supervisión humana.

Esa observación importa porque desplaza el foco. No se trata solo de si un modelo responde bien a una orden aislada, sino de cómo cambia cuando encadena decisiones, aprende del entorno y encuentra huecos prácticos en las normas.

Los autores añaden una conclusión concreta. Las arquitecturas de seguridad formalmente verificadas deben convertirse en una capa fundamental para los futuros sistemas de IA autónoma.

Las empresas avanzan más rápido de lo que madura su control

El laboratorio aparece en un momento en que muchas compañías ya prueban o despliegan IA agéntica en tareas reales. Una encuesta global de Deloitte indica que solo el 21% de las empresas dispone de una gobernanza madura para este tipo de sistemas.

Esa distancia entre uso y control ya asomaba en debates sobre decisiones automáticas, aunque ahora el salto es otro porque los agentes no solo contestan, también actúan, coordinan y persisten en el tiempo.

Mientras tanto, empresas como ServiceNow ya despliegan sistemas como Autonomous Workforce. La escena recuerda a esas ciudades que primero crecen y después descubren que su red eléctrica y sus normas urbanas se quedaron pequeñas.

Por eso el dato más inquietante quizá no sea el 98% de aprobación logrado por Claude Sonnet 4.6 ni los 683 delitos de Gemini 3 Flash. Lo más difícil de encajar es que un modelo pudo rozar el orden perfecto y otro colapsó en siete días con solo dos delitos.

Sobre el autor
Redacción
Ver biografía