Inteligencia Artificial

Merriam-Webster y Britannica demandan a OpenAI por usar más de 100.000 entradas para entrenar ChatGPT

"Los productos de IA... se aprovechan del contenido fiable"

Redacción

20 de marzo de 2026 a las 13:11h

Merriam-Webster y Britannica demandan a OpenAI por usar más de 100.000 entradas para entrenar ChatGPT

Imagina por un momento que alguien toma tu trabajo, palabra por palabra, sin pedir permiso, lo alimenta a una máquina que aprende a imitar tu estilo, y luego esa máquina empieza a ofrecer tus ideas como si fueran suyas. Peor aún lo hace de forma incompleta, a veces errónea, y atrae a tu audiencia lejos de ti. Eso, en esencia, es lo que Merriam-Webster el venerable editor del diccionario más conocido del mundo y Encyclopedia Britannica acusan a OpenAI de hacer con su contenido.

La batalla por el conocimiento

Los creadores del diccionario que muchos consultaron en la escuela, y de la enciclopedia que fue un pilar del saber en hogares y bibliotecas, han pasado de ser guardianes del conocimiento a ser actores clave en una de las batallas legales más significativas del siglo XXI. Junto con su empresa matriz, han presentado una demanda contra OpenAI por lo que consideran un uso indebido de más de 100.000 artículos, definiciones y entradas de referencia. Todo ello, según sostienen, fue copiado sin autorización para entrenar a ChatGPT. No se trata solo de que la IA haya leído su contenido se trata de que lo copió, lo usó para aprender y ahora genera respuestas que, en muchos casos, replican el material original de forma literal o casi literal.

Para empresas como Merriam-Webster, cuya legitimidad se construyó sobre décadas de rigurosa edición y verificación, el riesgo no es solo económico, sino también de credibilidad. Las respuestas generadas por la IA, señalan, eliminan contextos, omiten advertencias y presentan definiciones incompletas o alteradas. En lugar de decir que una palabra tiene varios significados según el contexto histórico o geográfico, ChatGPT puede simplificarla hasta el punto de desvirtuarla. Y cuando no sabe, a veces simplemente inventa. Ese fenómeno, conocido como "alucinaciones" de la IA, también involucraría información que originalmente proviene de sus fuentes, pero distorsionada.

¿Quién posee el conocimiento compartido?

Lo que está en juego va mucho más allá de una disputa entre empresas. Esta demanda toca una pregunta fundamental ¿puede una empresa privada utilizar contenidos protegidos por derechos de autor aunque estén disponibles en internet para alimentar un modelo de inteligencia artificial que luego se convierte en un producto comercial? La querella argumenta que OpenAI no solo copió a gran escala, sino que además se beneficia económicamente de ese contenido mientras desvía tráfico de usuarios de los sitios originales.

Es un círculo perverso la IA se entrena con información fiable, genera resúmenes que atraen a los usuarios, y estos ya no necesitan visitar las fuentes originales. Así, el conocimiento que costó años producir se convierte en materia prima gratuita para una tecnología que, paradójicamente, muchos ven como el futuro de la educación y la consulta. En un mundo donde los resultados de búsqueda ya incluyen respuestas generadas por IA, la línea entre fuente original y derivado se vuelve borrosa. ¿Quién se acuerda del diccionario si la respuesta aparece directamente en la pantalla del teléfono?

"Los productos de IA basados en ChatGPT de los demandados se aprovechan del contenido fiable y de alta calidad de los demandantes... al canibalizar el tráfico hacia los sitios web de los demandados con resúmenes generados por IA del propio contenido de los demandantes" - afirmación incluida en la demanda.

Aunque OpenAI aún no ha respondido públicamente, el silencio no resta fuerza al precedente que podría marcarse con este caso. Si los tribunales fallan a favor de Merriam-Webster y Britannica, podrían establecer límites claros sobre cómo se puede o no usar contenido protegido en el entrenamiento de sistemas de IA. Y eso afectaría no solo a OpenAI, sino a todo un ecosistema de grandes modelos lingüísticos que hoy dependen de datos extraídos de la web en su estado más crudo.

Lo irónico es que, mientras celebramos el poder de estas nuevas herramientas para democratizar el acceso al conocimiento, también estamos viendo cómo los propios creadores de ese conocimiento quedan marginados. No es solo una cuestión de dinero o propiedad intelectual es sobre reconocimiento, integridad y el valor del trabajo humano en un mundo cada vez más automatizado. Y tal vez, antes de seguir preguntándole todo a una máquina, deberíamos preguntarnos quién le enseñó a hablar, y a qué costo.

Sobre el autor

Redacción

Ver biografía