NVIDIA é processada por treinar IA com livros obtidos em site pirata

NVIDIA é processada por treinar IA com livros obtidos em site pirata

No ano passado, vários detentores de direitos autorais entraram com processos judiciais contra empresas que desenvolvem modelos de inteligência artificial (IA).

A lista de reclamantes inclui gravadoras, autores de livros, artistas visuais e até mesmo o New York Times. Todos esses detentores de direitos se opõem ao suposto uso de seu trabalho sem a devida compensação.

Leia também:

Spotify sairá do Uruguai em 2024 devido a lei de direitos autorais
Governo japonês define que treinamento de IA não é violação de direitos autorais

O que é o conjunto de dados “Books3”?

NVIDIA

Essas ações alegam que várias empresas de tecnologia, como por exemplos a Meta, Microsoft e OpenAI, utilizaram o conjunto de dados ‘Books3’ para treinar seus modelos.

O conjunto de dados “Books3” é uma coleção de textos que foi compilada por Shawn Presser, um pesquisador de inteligência artificial (IA), em 2020. Esse conjunto de dados foi criado ao extrair informações do site Bibliotik, que é conhecido por hospedar uma ampla variedade de materiais, incluindo livros digitais.

O Books3 ganhou destaque devido ao seu uso na pesquisa e no treinamento de modelos de IA, especialmente em projetos relacionados à compreensão de linguagem natural e geração de texto. No entanto, o conjunto de dados foi objeto de controvérsia devido à sua origem potencialmente questionável, uma vez que os materiais disponíveis em sites como o Bibliotik são frequentemente obtidos de forma não autorizada.

Por conta disso, o Books3 acabou sendo associado a questões legais e éticas, especialmente quando usado por empresas de tecnologia para treinar modelos de IA sem a permissão dos detentores dos direitos autorais dos materiais contidos no conjunto de dados. Essas questões legais resultaram em ações judiciais e debates sobre o uso ético de dados e propriedade intelectual no contexto da inteligência artificial.

O conjunto de dados foi compartilhado online diversas vezes e fazia parte de outros bancos de dados. Um deles é o “The Pile”, que é usado para o treinamento de IA compilado pela EleutherAI.

Depois de ações legais e controvérsias levantadas pelos detentores de direitos autorais e pelas organizações anti-pirataria, acabou que o Books3 foi retirado do ar. Porém, mesmo assim, muitas empresas que teriam treinado seus modelos de IA com base nele anda precisam lidar com algumas repercussões legais até hoje.

Após resistência por parte dos detentores de direitos autorais e organizações anti-pirataria, o Books3 foi retirado do ar justamente por causa de todas essas preocupações com direitos autorais. No entanto, para muitas das empresas que supostamente treinaram seus modelos de IA com base nele, ainda há algumas repercussões legais a serem resolvidas.

NVIDIA é processada por infração de direitos autorais

NVIDIA

Nos últimos dias, alguns autores americanos, como Abdi Nazemian, Brian Keene e Stewart O’Nan se uniram a outros em um bombardeio de ações legais, que resultou em um grande processo por violação de direitos autorais contra a NVIDIA.

A empresa é atualmente uma das mais conhecidas do mercado, principalmente por suas GPUs e softwares de serviços, e conta com um valor de mercado que ultrapassa a faixa dos US$ 2 trilhões. É também uma das empresas de tecnologia que está investindo em modelos próprios de IA, e daí que vem o problema nesse caso.

Acontece que os autores do processo alegaram em uma queixa coletiva protocolada no tribunal federal da Califórnia, que a NVIDIA usou o conjunto de dados Books3 para treinar o seu modelo de linguagem NeMo Megatron.

Esses modelos são hospedados na Hugging Face, que utiliza o conjunto de dados The Pile da EleutherAI para treiná-los. Ou seja, um banco que usa supostamente livros pirateados.

Dessa forma, os autores concluem que os modelos da NVIDIA foram treinados com base em livros pirateados, incluindo os deles, sem sua permissão.

“A NVIDIA admitiu treinar seus modelos NeMo Megatron em uma cópia do conjunto de dados The Pile. Portanto, a NVIDIA também necessariamente treinou seus modelos NeMo Megatron em uma cópia do Books3, porque o Books3 faz parte do The Pile”, diz a reclamação. “Certos livros escritos pelos autores fazem parte do Books3 — incluindo as Obras Infringidas — e, portanto, a NVIDIA necessariamente treinou seus modelos NeMo Megatron em uma ou mais cópias das Obras Infringidas, infringindo diretamente os direitos autorais dos autores.”

Processo também vê danos por violação direta de direitos autorais

Seguindo a mesma linha de raciocínio, os escritores acusaram a corporação de infringir diretamente os direitos autorais, argumentando que a NVIDIA reproduziu seus textos com o propósito de treinar inteligências artificiais. Através da ação judicial, os detentores de direitos buscam ressarcimento sob a forma de danos reais ou estatutários.

A ação coletiva atualmente envolve apenas três autores, mas novos podem ser incluídos no decorrer do processo. Até o momento, a NVIDIA não emitiu resposta às alegações, embora, considerando casos semelhantes, seja provável que conteste as acusações e/ou apresente uma defesa baseada no uso legítimo.

Recentemente, a OpenAI conseguiu refutar diversas acusações de violação de direitos autorais feitas por autores de livros em um processo relacionado ao “Books3”. Entretanto, o tribunal federal da Califórnia ainda não analisou as acusações de violação direta de direitos autorais neste caso, as quais devem ser discutidas em detalhes em uma próxima etapa de análise.

Fonte: torrentfreak

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X