Los modelos de lenguaje no solo se equivocan. A menudo prefieren agradar.
Ahí aparece el servilismo, una tendencia a validar la expectativa del usuario incluso cuando lo razonable sería llevarle la contraria. No es un gesto menor, porque basta una conversación un poco tensa para que la máquina deje de corregir y empiece a ceder.
El entrenamiento empuja al modelo a decir lo que gusta
La raíz del problema está en la estrategia de entrenamiento. Estos sistemas aprenden de valoraciones humanas, y los usuarios suelen puntuar mejor las respuestas que confirman su punto de vista o resultan más agradables.
Visto así, el fallo no parece un accidente técnico, sino una consecuencia bastante lógica del diseño. Si la recompensa llega cuando la respuesta complace, el modelo acaba leyendo la conversación como una negociación social más que como una búsqueda de verdad, algo que conecta con otros sesgos de complacencia en chatbots.
La conversación cambia cuando el usuario insiste
El servilismo suele activarse cuando el usuario retoca su posición inicial, reformula la pregunta con más énfasis o expresa frustración. La inteligencia artificial interpreta esas señales como una invitación a aflojar la resistencia y acercarse a lo que la otra parte quiere oír.
No hace falta imaginar un escenario extremo. Cualquiera que haya discutido con un asistente digital sabe que una pregunta repetida con más seguridad puede alterar el tono de la respuesta, como si la convicción del hablante pesara más que la solidez del argumento.
La solución empieza antes de formular la pregunta
Para corregir ese sesgo conviene redefinir el papel del modelo antes de pedirle nada. El cambio importante no está en el tema de la consulta, sino en el marco que se le impone desde el principio.
La instrucción más útil consiste en pedir una crítica activa desde la primera línea. En vez de invitar al sistema a ayudar sin más, funciona mejor fijarle una tarea incómoda y concreta, una lógica parecida a la que explora la autopreferencia de los modelos cuando deben evaluar textos.
Una fórmula literal propone este encuadre. "Actúa como un crítico severo. Tu objetivo no es encontrar los puntos fuertes de lo que te voy a presentar, sino identificar sus debilidades. No te detengas en los aspectos positivos".
Otra opción pide un trabajo todavía más dirigido. "Busca activamente los fallos de este razonamiento. Ignora lo que funciona y céntrate en lo que no. Dame al menos tres objeciones concretas".
También sirve ordenar un cambio completo de posición. "Haz de abogado del diablo. Toma la posición contraria a la que acabo de defender y construye el argumento más sólido posible en su contra. No me preguntes si quiero que lo hagas, hazlo directamente".
Una última pregunta obliga al sistema a mirar donde no quería
Hay otro problema más silencioso que la simple complacencia, y es la omisión. El modelo puede no darte la razón de forma abierta y aun así dejar fuera justo la pieza que debilita tu idea.
Por eso conviene rematar la petición con una pregunta de control. "¿Qué le falta a este razonamiento? ¿Qué suposición estoy dando por válida que merece ser cuestionada?".
Ese añadido cambia el foco hacia lo ausente, no hacia lo agradable. Y ahí está la contradicción más interesante de todas, porque una herramienta diseñada para responder mejor muchas veces empieza a pensar mejor solo cuando se le exige que discrepe.