La inteligencia artificial puede resolver la ecuación más compleja del mundo, pero no es capaz de comerse una pipa. Esta frase, sacada de un anuncio publicitario reciente, suena a broma. Pero en realidad es una verdad brutal disfrazada de humor. Detrás de esa simplicidad hay una revelación profunda sobre los límites actuales de la IA generativa, especialmente cuando intenta imitar algo tan cotidiano como masticar.
El talón de Aquiles de la IA comer
La acción de comer no es solo llevarse algo a la boca. Es una danza compleja de músculos, reflejos, texturas cambiantes y transiciones físicas que la IA aún no domina. La IA no sabe qué es "comer", solo predice qué píxel debería ir después de otro basándose en patrones visuales. Y cuando esos patrones rompen las leyes de la física, el resultado es un caos sutil pero evidente.
Nerea Luis, doctora en Ciencias de la Computación especializada en inteligencia artificial, lo explica con precisión "El problema principal no es la comida en sí, sino la física de la interacción de la acción de comer. Al comer, intervienen fluidos, sólidos que se deforman, oclusiones la comida entra en la boca y desaparece y una coordinación motora finísima. La IA no entiende el volumen, la gravedad, la viscosidad. Solo ve imágenes consecutivas y trata de conectarlas".
Por eso, cuando un modelo genera un vídeo de alguien comiendo, las manos a menudo se funden con la comida, los dientes se deforman, o el bocado simplemente flota en el aire. No es solo un error técnico. Es la señal de que estamos ante un sistema que simula, pero no comprende.
El caso de las pipas y otros pequeños desastres físicos
Tomemos el ejemplo de las pipas. Un objeto pequeño, ligero, que se manipula con las puntas de los dedos. La acción de pelarla, llevarla a la boca, masticarla, escupir la cáscara, es un ritual social en países como España o Rusia. Pero para la IA, es un rompecabezas imposible.
"En inglés, "sunflower seeds" se asocia más con comida para pájaros o con un topping para ensaladas", explica Nerea Luis. "No existe un verbo equivalente a "comer pipas" como concepto cultural propio. Y eso importa. Los modelos se entrenan mayoritariamente con datos anglosajones, donde esa acción no es común. Si no hay suficientes ejemplos en los que la IA pueda aprender, no puede reproducirlo".
Mariia Chizhikova, ingeniera de Modelos de Lenguaje especializada en IA, añade "Cuantos más vídeos haya en internet de una acción concreta, mejor habrá podido aprenderla el modelo". Y aunque en España comer pipas es algo cotidiano, esos momentos rara vez se filman con la calidad o el enfoque que necesitan los algoritmos para aprender. No hay millones de clips de personas pelando pipas en terrazas de verano con buena luz y ángulos claros. Así que, para la IA, ese gesto simplemente no existe.
Will Smith y los espaguetis que cambiaron la historia de la IA
En 2023, un usuario de Reddit publicó un vídeo que se convirtió en un fenómeno viral "Will Smith comiendo espaguetis". No era real. Era generado por IA, con el modelo ModelScope, que en aquel momento era el más avanzado en generación de vídeo. El resultado era grotesco. Las manos se multiplicaban, los espaguetis se retorcían como serpientes mecánicas, la cara de Will Smith se desformaba en una máscara de pesadilla.
Pero ese fracaso fue revelador. "El resultado era... una pesadilla. Pero captó perfectamente cuál era el talón de Aquiles de la IA generativa de vídeo en aquel momento", dice Mariia Chizhikova. El meme no solo era gracioso, se convirtió en un benchmark técnico. Un estándar informal, pero poderoso, para medir el progreso de los modelos.
Cuando en 2026 la empresa china Kuaishou Technology lanzó su nuevo generador Kling 3.0, lo anunció con un vídeo comparando el "Will Smith comiendo espaguetis" de 2023 con el de 2026. La mejora era exponencial. Las hebras de pasta se movían con coherencia, el tenedor tenía volumen, el masticado era creíble. No era perfecto, pero ya no era una pesadilla.
Nerea Luis lo ve como un hito "Concentraba todos los errores posibles deformación facial, manos que se fusionaban con la comida, una estética que, con los años, ha servido para mostrar el realismo que ha ido aprendiendo la IA. Y tenía ese punto humorístico viral que en redes funciona muy bien; sin que seas un experto, entiendes el avance al ser un ejemplo tan visual".
La física que la IA aún no entiende
¿Por qué los espaguetis son tan difíciles? Porque cada hebra se mueve de forma independiente, con su propia física, su interacción con el tenedor, con la boca, con el resto de la pasta. No hay un patrón homogéneo que aprender. Y sin patrón, la IA se pierde.
Lo mismo ocurre con el queso fundido, el hielo en los vasos, los reflejos en la salsa. "Reflejos, transparencias y salpicaduras son difíciles de calcular", dice Nerea Luis. "La IA pierde el hilo de dónde empieza el objeto y dónde termina la comida. Porque no entiende la materia. Solo imita su apariencia".
Los avances, sin embargo, son reales. Modelos como Sora o Veo3 han dado un salto cualitativo. "Entienden mejor la consistencia temporal, el volumen de los objetos en un espacio 3D y el sonido", explica Nerea. "Ahora la IA "comprende" que el tenedor es un objeto independiente de la cara y tiene muchas más referencias físicas de cómo se "mueve" en el entorno".
El valle inquietante de la comida generada por IA
Pero hay un problema aún más profundo la reacción humana. Un estudio piloto publicado en 2025 en la revista científica *Appetite* concluyó que las imágenes de comida creadas con IA pueden caer en el "valle inquietante" y desencadenar neofobia alimentaria miedo a probar alimentos nuevos o desconocidos.
"Nuestro cerebro detecta algo que casi es real, pero no del todo, y eso genera una incomodidad difusa", dice Mariia Chizhikova. "En el caso de la comida, solemos procesar esas imágenes con una capa adicional de expectativa sensorial el olor, la textura, el sabor imaginado y cualquier inconsistencia en la apariencia interfiere con esa experiencia".
Y aquí está la paradoja ahora mismo, el problema no es que las imágenes sean malas, sino que tienden a ser demasiado perfectas. Texturas uniformes, brillos simétricos, composiciones impecables. Parecen sacadas de un manual de diseño gráfico, no de una cocina real. Y eso, curiosamente, es lo que las hace menos apetecibles.
¿Engaño o autenticidad?
La fotografía gastronómica siempre ha sido un arte de la manipulación aceites para dar brillo, palillos para sostener ingredientes, trucos de iluminación. Pero hay una línea entre manipulación y falsedad. Y al reemplazar fotos reales con imágenes generadas por IA, muchas empresas de restauración y plataformas de delivery están cruzándola.
"La comida fotogénica de verdad tiene imperfecciones, pequeños accidentes que la hacen humana", afirma Mariia Chizhikova.
"Creo que el camino no es sustituir la fotografía de comida real con IA, sino usarla como herramienta de apoyo cuando tiene sentido. Ya he visto plataformas de delivery que empiezan a usar imágenes generadas para representar sus platos, y creo que es un error, no solo técnico, sino estratégico. La fotografía real comunica autenticidad, y en alimentación la autenticidad importa" - Mariia Chizhikova, ingeniera de Modelos de Lenguaje especializada en IA
Hay también un problema ético evidente estos modelos se entrenan con millones de imágenes creadas por personas sin su permiso. Fotógrafos, cocineros, bloggers alimenticios. Su trabajo alimenta sistemas que ahora amenazan con hacerlos irrelevantes.
En el fondo, el reto no es técnico, sino humano. ¿Qué queremos ver cuando buscamos una comida? ¿Una imagen perfecta que nunca existió? ¿O un plato real, con sus imperfecciones, su historia, su verdad?
La IA puede crear un espagueti digital que se mueve con fluidez. Puede simular el brillo del aceite, el vapor que sube del plato. Pero no puede replicar el aroma que te hace salivar, ni el sonido de la masticación, ni el placer de compartirlo con alguien. La comida no es solo una imagen. Es experiencia. Y eso, por ahora, sigue siendo exclusivamente humano.