La batalla legal por el uso de datos en el entrenamiento de modelos de inteligencia artificial generativa sigue intensificándose. En el centro del debate se encuentra Anthropic, la compañía detrás del asistente Claude, que recientemente ha llegado a un acuerdo de 1.500 millones de dólares para resolver una demanda que la acusaba de utilizar millones de libros pirateados en sus modelos. Según la demanda, encabezada por los escritores Andrea Bartz, Charles Graeber y Kirk Wallace, la empresa habría descargado ilegalmente más de siete millones de obras. El acuerdo también incluye pagos adicionales de 3.000 dólares por cada 500.000 libros descargados, así como la obligación de eliminar todas las copias utilizadas.
Este caso se suma a otros litigios similares que enfrentan gigantes de la inteligencia artificial. OpenAI, por ejemplo, ha sido demandada por el New York Times y decenas de escritores que afirman que sus obras fueron utilizadas sin permiso para entrenar al modelo GPT. Stability AI enfrenta acusaciones de haber utilizado obras de artistas sin autorización para entrenar Stable Diffusion, mientras que Midjourney ha sido señalada por emplear material gráfico de autores y catálogos de entretenimiento sin licencia.
Más allá de buscar compensaciones económicas, estas demandas pretenden establecer un precedente sobre qué datos son legalmente utilizables en el entrenamiento de modelos de inteligencia artificial. El debate técnico-legal se centra en la distinción entre aprender de un conjunto de datos y copiar una obra directamente. Las compañías defienden el entrenamiento como un proceso estadístico amparado bajo el principio de fair use en Estados Unidos. Sin embargo, los demandantes argumentan que la IA puede reproducir fragmentos idénticos, lo cual sería una violación de copyright.
La situación en Europa es aún más compleja. La directiva de derechos de autor de 2019 limita explícitamente el uso de obras protegidas, a menos que sea con fines de investigación, lo que significa que empresas como OpenAI o Anthropic necesitarían licencias comerciales para entrenar sus modelos en la región.
El acuerdo de Anthropic destaca un nuevo desafío: el creciente coste de entrenar modelos con datos protegidos. Si las compañías deben pagar licencias o compensaciones significativas, el desarrollo de nuevos modelos se encarecerá notablemente, lo que podría desacelerar la innovación y favorecer a las grandes empresas con mayor capacidad financiera. Esto podría dar lugar a un mercado de licencias de datasets como nueva norma en la industria.
El destino de la inteligencia artificial generativa dependerá en gran medida de cómo se resuelvan estos conflictos legales. Un posible camino es un modelo híbrido que combine datasets públicos y de dominio abierto con catálogos licenciados de editoriales y medios. Por ahora, el caso de Anthropic envía un mensaje contundente: los creadores de contenido no están dispuestos a quedarse al margen, y hallar un equilibrio entre la innovación y los derechos de autor será uno de los mayores retos de la IA en esta década.