Inteligencia Artificial

Adobe usó libros sin permiso para entrenar su IA SlimLM, según demanda en California

La demanda se presentó en el Tribunal Federal del Distrito Norte de California. Un lugar recurrente en las batallas tecnológicas del siglo XXI. Aquí, los derechos de autor chocan con los algoritmos.

Redacción

31 de diciembre de 2025 a las 19:55h

adobe uso libros sin permiso para entrenar su IA

Hay un silencio casi absoluto en los servidores donde las grandes empresas entrenan sus inteligencias artificiales. No se oyen teclas, ni voces, ni el murmullo de una biblioteca. Pero dentro de esos centros de datos, algo está leyendo. Miles de millones de palabras. Libros, artículos, manuales, novelas. Todo escaneado, almacenado, procesado. Y ahora, algunos de los autores cuyas obras alimentan esos sistemas están alzando la voz. Entre ellos, Elizabeth Lyon.

Un libro en la máquina

Lyon es escritora. Escribe libros. Los firma, los publica, los defiende como suyos. Ahora dice que Adobe usó sus obras, sin permiso, para entrenar un modelo de inteligencia artificial llamado SlimLM. No se trata de copiar páginas ni piratear descargas. Es más sutil. Su voz, su estilo, su imaginación, podrían haber sido absorbidos por un algoritmo diseñado para responder a preguntas, resumir textos o ayudar a redactar documentos.

La demanda se presentó en el Tribunal Federal del Distrito Norte de California. Un lugar recurrente en las batallas tecnológicas del siglo XXI. Aquí, los derechos de autor chocan con los algoritmos. Aquí, la propiedad intelectual se topa con la escala industrial del aprendizaje automático.

Las obras protegidas se usaron para entrenar sistemas que responden a instrucciones humanas

Según la documentación judicial, los libros protegidos no se usaron directamente por Adobe, sino a través de una cadena de conjuntos de datos. Comienza con Books3, una colección masiva de libros en inglés extraídos de fuentes en línea, muchas de ellas bajo derechos de autor. Esa colección alimentó RedPajama, que a su vez fue parte de SlimPajama-627B, el conjunto de datos que Adobe dice haber usado para preentrenar SlimLM.

Es como si alguien copiara tu receta familiar, la incluyera en un libro de cocina pirata, ese libro se escaneara para un compendio académico, y luego una empresa de alimentación usara ese compendio para entrenar a sus chefs virtuales. Tú no diste permiso. Nadie te pagó. Pero tu sabor está ahí, disuelto en el código.

El modelo que no se vende, pero que todo lo sabe

SlimLM no es como Firefly, el modelo de IA de Adobe más conocido, diseñado para crear imágenes a partir de texto. Firefly ha sido presentado como un sistema ético, entrenado con contenido con licencia, material de dominio público y obras de colaboradores de Adobe Stock, algunos de los cuales reciben compensación.

Sin embargo, SlimLM es distinto. Es una familia de modelos más pequeños, optimizados para funcionar en dispositivos móviles, enfocados en tareas de asistencia y procesamiento de documentos. No se comercializa directamente. Está integrado, como un músculo invisible, dentro de otras herramientas. Justo ese perfil lo hace más difícil de rastrear, más opaco para el usuario medio.

La demanda no es contra Firefly, sino contra un modelo que opera bajo la superficie.

Y eso plantea una pregunta incómoda ¿cuántos modelos como SlimLM están activos en nuestras aplicaciones diarias, alimentándose de obras que nunca fueron autorizadas para ese fin?

Una cadena de datos con fisuras

Adobe afirma que SlimLM se entrenó con SlimPajama-627B, un conjunto de datos de código abierto publicado por Cerebras en junio de 2023. Pero la demanda señala que la apertura del dataset no garantiza la legalidad de su contenido. Si una biblioteca dona libros robados, ¿sigue siendo una donación legítima?

El problema está en la cadena de transmisión. RedPajama ya fue cuestionado en otras demandas por incluir Books3, una base de datos compilada a partir de archivos compartidos en foros de intercambio de libros. Miles de obras protegidas, muchas de ellas de autores contemporáneos, acabaron allí sin consentimiento.

La inclusión de obras sin autorización se habría producido a través de esta cadena de datos.

Y ese es el meollo del asunto. Las empresas no necesitan hackear servidores ni entrar en bibliotecas digitales. Basta con que alguien más lo haga antes, compile los datos, los etiquete como abiertos y los suba a una plataforma pública. Entonces, cualquiera puede usarlos. Y decir después "no sabíamos de dónde venían".

El frente legal se expande

Este caso no es aislado. Autores, periodistas y artistas están llevando a juicio a empresas como OpenAI y Anthropic por usar sus obras sin permiso. Algunos procesos han concluido en acuerdos millonarios. Otros siguen abiertos, marcando un antes y un después en la relación entre creatividad humana y máquinas de inteligencia artificial.

Elizabeth Lyon no actúa sola. Dice representar a otros titulares de derechos en situación similar. La demanda es colectiva. Busca una compensación económica, aunque no especifica cuánto. Pero más allá del dinero, hay un principio en juego el derecho a decidir qué se hace con tu obra.

Los modelos se entrenaron con contenido con licencia, como Adobe Stock, y material de dominio público

Esa fue la defensa pública de Adobe hasta ahora. Pero SlimLM abre una fisura en ese discurso. Si una parte de su ecosistema de IA depende de datos cuya procedencia es cuestionable, ¿cuán ético es el conjunto?

La tecnología avanza más rápido que las leyes, pero los autores ya no están dispuestos a quedarse atrás.

Adobe no ha respondido a las solicitudes de comentarios. El caso está en una fase inicial. El sistema judicial tendrá la última palabra si la demanda prospera, si se archiva o si termina en un acuerdo. Mientras tanto, millones de palabras siguen circulando en los circuitos del aprendizaje automático, muchas sin saber que fueron leídas no por personas, sino por máquinas que aprenden a imitarlas.

En esa imitación, ¿queda algo de autoría? ¿O solo queda algoritmo?

Sobre el autor

Redacción

Ver biografía