Google continúa avanzando en el campo de los agentes de inteligencia artificial autónomos con la incorporación de una nueva función en su modelo Gemini 2.5 llamada Computer Use. Esta capacidad permite a la inteligencia artificial interactuar directamente con aplicaciones y sistemas operativos, realizando tareas que hasta ahora requerían intervención humana. A través de una API diseñada para desarrolladores, Gemini puede ahora actuar como un piloto automático asistido por IA, capaz de navegar interfaces, tomar decisiones y ejecutar acciones en nombre del usuario.
Una de las demostraciones más llamativas es un navegador de muestra que integra al agente Gemini, accesible desde dispositivos móviles.
Aunque actualmente opera en inglés, acepta comandos en español, lo que amplía su utilidad en contextos multilingües. Desde este entorno, el usuario puede pedirle al agente que reserve un vuelo, busque una mesa en un restaurante para una fecha específica, simule comportamientos dentro de una página web, organice eventos en el calendario o incluso responda comentarios en redes sociales. Estas acciones, que normalmente implican múltiples pasos y decisiones humanas, las realiza el agente de manera coordinada y autónoma.
Uno de los aspectos más interesantes es el límite de tiempo que Google ha impuesto cinco minutos. Durante este período, el agente puede operar de forma independiente en un ordenador. Si la tarea excede ese tiempo, se detiene automáticamente. Este límite no es arbitrario, sino que refleja las pruebas internas que Google ha estado realizando con el modo agente, asegurando un equilibrio entre autonomía y control. Aunque puede parecer restrictivo, permite a la IA abordar tareas simples y medianas sin comprometer la seguridad del sistema.
Actualmente, Gemini en modo agente ya está disponible para pruebas, aunque su integración en sistemas como Android no ha sido anunciada oficialmente. Esto contrasta con los avances de OpenAI, cuyo modelo ChatGPT adquirió antes la capacidad de interactuar con aplicaciones móviles, adelantándose en este aspecto. Sin embargo, Google parece estar preparando un salto más ambicioso, no solo en funcionalidad sino en alcance. El agente Gemini no solo reacciona, sino que anticipa y ejecuta, transformándolo en un verdadero asistente proactivo.
Gemini 2.5, el paso hacia la autonomía digital
La introducción de Computer Use en Gemini 2.5 marca un hito en la evolución de las interfaces entre humanos y máquinas. Ya no se trata solo de responder preguntas, sino de actuar. El agente puede navegar, decidir y completar tareas complejas sin intervención continua. Esto abre la puerta a una nueva generación de aplicaciones donde la IA no es un complemento, sino un actor principal. Imaginemos a Chrome con un asistente que completa formularios, compara precios o gestiona reservas mientras nosotros nos dedicamos a otras actividades.
El hecho de que el agente funcione desde un navegador móvil es especialmente relevante. Mucho del uso diario de internet se realiza desde dispositivos portátiles, y tener un asistente que entienda órdenes en español y ejecute acciones en entornos web enriquece enormemente la experiencia del usuario. Aún está en fase de prueba, pero todo indica que Google está preparando a Gemini para pasar a producción, con una integración profunda en sus servicios más utilizados.
La competencia en el campo de los agentes autónomos se intensifica. Mientras OpenAI ha mostrado avances notables con ChatGPT, Google parece apostar por una integración más orgánica dentro de su ecosistema. La apuesta no es solo tecnológica, sino estratégica, buscando que la inteligencia artificial se vuelva invisible, eficaz y omnipresente en la vida digital del usuario.
El futuro de la interacción con la tecnología podría depender de cuán bien estas IA comprenden nuestras intenciones, ejecutan nuestras órdenes y respetan nuestros límites. Con Gemini, Google no solo está entrenando un modelo, está diseñando un nuevo modo de relación entre personas y máquinas.