Empresas de IA usaron copias piratas de libros de autores brasileños
Blanco de procesos en la Justicia de Estados Unidos, al menos tres empresas de inteligencia artificial estadounidenses usaron libros de Clarice Lispector, Chico Buarque, Paulo Coelho y otros autores brasileños para entrenar sus modelos de inteligencia artificial sin pedir autorización, sin pagar por ello —y recurriendo a copias piratas disponibles en internet.
Las empresas son Meta, Anthropic y Microsoft. Las tres compañías usaron una base de datos llamada Books3, que reúne casi 200 mil copias ilegales de libros.
Consultadas, dijeron que no iban a comentar el caso. Las empresas de IA estadounidenses han argumentado que tomar libros para desarrollar chatbots es «uso justo», cuando no es necesario pagar.
El reportaje descargó la base de datos de la plataforma Hugging Face. En seguida, confirmó la integridad de la copia con informaciones suministradas en un informe por EleutherAI, grupo de investigación sin fines de lucro que fue el primero en describir públicamente Books3.
Además, el investigador responsable en la época divulgó que el repositorio contenía todos los 196.400 libros de una biblioteca pirata —número que coincide con el repositorio encontrado por la Folha.
Paulo Coelho es el más pirateado de todos, con 31 libros en la base de datos. En segundo lugar viene Clarice Lispector, con una mayor variedad de idiomas. La lista continúa con Jorge Amado, Paulo Freire, Rubem Fonseca, Raduan Nassar y João Cabral de Melo Neto, entre otros.
Folha Internacional