Google ya no quiere que un modelo responda preguntas y espere la siguiente orden. Ahora Gemini 3.5 Flash puede usar un ordenador por su cuenta, mirar la pantalla, entrar en páginas y pulsar elementos hasta completar una tarea.
Desde hoy, esa capacidad está disponible para desarrolladores y empresas dentro de las herramientas de Google. La novedad tiene un matiz relevante, porque la función de agente no vive en una edición aparte, sino dentro del propio Gemini 3.5 Flash.
Gemini ya ejecuta tareas que antes exigían una cadena de clics
Eso cambia el tipo de relación con la máquina. En lugar de limitarse a sugerir un itinerario, el modelo puede buscar y comparar vuelos de Nueva Delhi a Tokio en tres webs de reservas, o incluso resolver partidas de 2048, una señal de que no solo interpreta texto, también actúa sobre interfaces.
Hace apenas unos meses Google ya había dejado ver interacción directa con apps. La diferencia ahora es que esa lógica queda integrada en un modelo comercial que encadena pasos de forma autónoma sin depender de una versión separada.
La promesa resulta fácil de entender en la vida diaria.
Buscar, comparar, volver atrás, abrir otra pestaña y elegir entre varias opciones es justo el trabajo pequeño y repetitivo que ocupa minutos y exige atención. Cuando un modelo puede recorrer esa secuencia por sí mismo, la frontera entre asistente y operador empieza a moverse.
Google pone frenos cuando la acción ya puede tener consecuencias
La autonomía, sin embargo, llega con correa corta. Google ha incorporado frenos de seguridad que piden permiso antes de ejecutar acciones irreversibles, como pagar o borrar, dos gestos donde un error deja de ser una molestia y pasa a tener coste.
También hay un corte automático frente a un riesgo menos visible para el usuario común, pero muy conocido en seguridad. Si el sistema detecta intentos de inyección de órdenes ocultas dentro de una web, detiene la tarea antes de seguir navegando.
Ese detalle conecta con un debate que ya venía asomando en agentes para navegador. Cuanto más se parece una IA a un usuario humano que hace clic, más importante resulta decidir en qué momento obedece, en qué momento duda y en qué momento simplemente para.
La supervisión humana sigue dentro de la ecuación
Google recomienda usar entornos cerrados de prueba, permisos restringidos y vigilancia humana en los pasos críticos. No es un detalle menor, porque la misma capacidad que permite automatizar una búsqueda compleja también obliga a pensar qué parte del control conviene no soltar.
Ahí está la tensión de fondo. Gemini 3.5 Flash ya puede recorrer una pantalla y actuar sobre ella, pero cuando aparece un pago o un borrado, el sistema vuelve a pedir a una persona que tome la decisión final.