MIGALHAS DE PESO

  1. Home >
  2. De Peso >
  3. Fair use, IA generativa e direitos autorais: Novos desdobramentos e um grande "e se?"

Fair use, IA generativa e direitos autorais: Novos desdobramentos e um grande "e se?"

Este texto resume duas decisões sobre fair use e destaca cenários de "e se?" que foram levantados, mas seguem sem resposta clara nos tribunais.

sexta-feira, 4 de julho de 2025

Atualizado às 11:10

"Entediante" definitivamente não é um termo capaz de definir os últimos meses para quem acompanha as discussões sobre IAG - Inteligência artificial generativa e direitos autorais. Novos casos judiciais ao redor do mundo,1 a divulgação de um relatório do Escritório de Direitos Autorais dos Estados Unidos (U.S. Copyright Office - USCO) rodeado de questões sensíveis, tanto de conteúdo quanto políticas,2 e, mais recentemente, dois processos envolvendo o uso de material protegido para o treinamento de sistemas de IAG tiveram desdobramentos relevantes.

As decisões dos casos Bartz, Graeber & Johnson v. Anthropic3 e Kadrey v. Meta4 abordaram uma das principais perguntas levantadas nesses (e em tantos outros) processos: o uso de obras protegidas por direitos autorais para treinar sistemas de IAG é um uso justo ("fair use").

Para fins de contexto, nos Estados Unidos da América, um uso é considerado "justo", ou seja, não configuraria violação de direitos autorais, com base na análise de quatro fatores, a saber:

"(1) o propósito e a natureza do uso, incluindo se tal uso possui caráter comercial ou se é voltado para fins educacionais sem fins lucrativos;

(2) a natureza da obra protegida por direitos autorais;

(3) a quantidade e a substancialidade da parte utilizada em relação à obra protegida como um todo; e

(4) o efeito do uso sobre o mercado potencial ou sobre o valor da obra protegida por direitos autorais." 5

Baseado em um texto originalmente escrito para o Infojustice,6 este texto tem como principal objetivo descrever de forma breve os principais pontos de cada decisão relacionados ao fair use e, mais importante, destacar o que ficou em aberto, alguns cenários do tipo "e se?" que foram mencionados, mas não decididos.

Bartz, Graeber & Johnson v. Anthropic

É importante iniciar este tópico destacando que este caso apresenta uma peculiaridade: na análise sobre o fair use, o juiz William Alsup tratou de (i) do uso de obras protegidas para o treinamento dos sistemas de IA da Anthropic e (ii) do uso relacionado à prática da empresa de manter cópias como um "recurso permanente de uso geral", sendo estas últimas obtidas de diferentes maneiras: algumas adquiridas legalmente e outras (milhões) de cópias "pirateadas". Para cada uma dessas categorias, foi aplicada uma análise distinta de fair use.

Em relação ao uso geral das obras protegidas no treinamento do sistema de IA da Anthropic, o juiz concluiu que esse uso "foi extremamente transformador e constituiu fair use".7 Dos quatro fatores analisados, apenas o segundo pesou contra o uso justo no treinamento.

No caso da digitalização de livros adquiridos legalmente, esse uso também foi considerado fair use, mas por uma razão mais simples, não por se tratar de treinamento de IA, mas porque, segundo o juiz, a Anthropic substituiu "as cópias impressas que havia adquirido para sua biblioteca central por cópias digitais mais convenientes, que economizam espaço e podem ser pesquisadas, sem adicionar novas cópias, criar obras novas ou redistribuir cópias existentes".8 Para esse uso específico, apenas o segundo fator pesou contra o uso justo, enquanto o quarto permaneceu neutro.

No que diz respeito às cópias adquiridas ilegalmente, o juiz Alsup foi claro ao afirmar que seu uso para compor a "biblioteca de uso geral" não constitui fair use, mesmo que algumas dessas cópias tenham sido utilizadas no treinamento dos LLMs. Na análise de fair use, todos os fatores pesaram contra esse uso.

Kadrey v. Meta

Logo no início da decisão, o juiz Vince Chhabria esclareceu que o caso trata da legalidade do uso de obras protegidas para treinar modelos de IAG sem permissão ou remuneração, afirmando que, embora os detalhes façam diferença, na maioria dos casos a resposta tende a ser que esse uso é ilegal:

"O que a lei de direitos autorais mais valoriza é preservar o incentivo para que seres humanos criem obras artísticas e científicas. Por isso, de forma geral, é ilegal copiar obras protegidas sem permissão. E a doutrina do 'fair use', que serve como defesa em algumas alegações de violação de direitos autorais, normalmente não se aplica a cópias que reduzem significativamente a capacidade dos titulares de obter receita com suas obras (e, assim, de continuar criando no futuro)." 9

O juiz prossegue ao afirmar que "ao treinar modelos de IA generativa com obras protegidas, as empresas estão criando algo que frequentemente enfraquecerá drasticamente o mercado dessas obras e, com isso, o incentivo para que seres humanos continuem criando da forma tradicional".10 Segundo ele, os maiores impactos não seriam sobre obras clássicas ou sobre autores consagrados, mas sobre o mercado de "romances e thrillers comuns criados por humanos", que pode ser significativamente afetado por obras similares criadas por IA.

Contudo, todos esses pontos foram apresentados como "o entendimento geral deste tribunal sobre modelos de IA generativa e suas capacidades", enfatizando o julgador que "os tribunais não podem decidir com base em entendimentos gerais. Eles devem decidir com base nas evidências apresentadas pelas partes".

Apesar dessa visão geral de que "copiar obras protegidas, por mais transformador que seja o uso, leva à criação de um produto com potencial para prejudicar seriamente o mercado das obras copiadas, e com isso o incentivo à criação humana",11 o juiz considerou duas das três teses de dano ao mercado dos autores como "claramente perdedoras" e a terceira como uma "possível vencedora", porém mal desenvolvida:

"Primeiro, o autor pode alegar que o modelo reproduz suas obras (ou outputs substancialmente semelhantes), permitindo que os usuários acessem essas obras ou substitutos gratuitamente via o modelo. Segundo, pode alegar que há um mercado para licenciar suas obras para treinamento de IA e que a cópia não autorizada prejudica ou inviabiliza esse mercado. Terceiro, pode argumentar que, mesmo que o modelo não consiga reproduzir exatamente suas obras, ele pode gerar obras suficientemente semelhantes (em tema ou gênero), que competem com as originais e funcionam como substitutos indiretos. Neste caso, os dois primeiros argumentos fracassam. O terceiro é mais promissor, mas a argumentação foi tão fraca que não chega a gerar dúvida factual suficiente para impedir o julgamento sumário." 12

Na análise geral dos quatro fatores, apenas o segundo pesou contra a Meta. O juiz concedeu julgamento sumário favorável à empresa em relação à acusação de violação de direitos autorais pelo uso dos livros dos autores no treinamento. No entanto, ele foi claro: "essa decisão não significa que o uso de obras protegidas pela Meta para treinar seus modelos seja legal. Significa apenas que os autores fizeram os argumentos errados e não desenvolveram os argumentos certos." 13

O uso de cópias pirateadas também foi tratado em Kadrey v. Meta. Neste caso, "não há controvérsia de que a Meta fez o download de conteúdos do LibGen e do Anna's Archive ...." Segundo o juiz, embora o simples download dessas bibliotecas não fosse suficiente para garantir vitória aos autores, esse fato é relevante na análise do fair use, especialmente no que se refere à "má-fé" e à perpetuação de atividades ilícitas.

Algumas lições e um grande "e se?"

Expressão importa no treinamento de LLMs

Ambos os casos deixaram claro que livros são valiosos no treinamento de sistemas de IAG justamente por conta da sua expressão criativa, qualidade e consistência. A Meta tentou basear sua defesa em precedentes como Sega e Google Books, argumentando que o uso visava "elementos funcionais" ou "não expressivos". Mas o juiz Chhabria rejeitou esse argumento, afirmando que "o uso dos livros pelos LLMs da Meta depende da expressão criativa dessas obras", ao contrário da tecnologia "agnóstica em relação ao conteúdo" do Google Books:

"O banco de dados não funcionaria melhor ou pior se contivesse livros cheios de palavras sem sentido ou escritos em línguas desconhecidas. Se alguém buscasse por esse texto, os livros apareceriam. Aqui, por outro lado, para que os LLMs da Meta gerem textos de qualidade, eles precisam de dados de treinamento coerentes e de qualidade."14

Treinar LLMs exige múltiplas cópias

Como resumido pelo juiz Alsup, o treinamento de LLMs exige várias cópias dos livros: uma cópia da biblioteca central, uma cópia "limpa" (sem repetições ou trechos irrelevantes), uma cópia tokenizada derivada da cópia limpa (a ser reproduzida várias vezes durante o treinamento) e cópias "comprimidas" das obras após o treinamento.

Treinar humanos talvez não seja a melhor analogia, e isso importa para a análise do fair use

Um dos principais pontos discutidos na análise do fair use em casos como os abordados aqui é o impacto no mercado, ou seja, o quarto fator do fair use. Nesse aspecto, os juízes divergiram tanto sobre a analogia com o treinamento humano quanto sobre os efeitos de mercado. O juiz Chhabria discordou expressamente da comparação feita por Alsup, segundo a qual o uso de obras no treinamento de IA causaria danos semelhantes ao uso de obras no ensino escolar, que também "resultaria em uma explosão de obras concorrentes".

Chhabria afirmou:

"Quando se trata de efeitos no mercado, usar livros para ensinar crianças a escrever não é remotamente comparável a usar livros para criar um produto que permite a qualquer pessoa gerar incontáveis obras concorrentes com uma fração do tempo e criatividade normalmente exigidos. Essa analogia inadequada não pode servir de base para ignorar o fator mais importante na análise do fair use."15

Um grande "e se?"

Ao ler ambas as decisões, uma pergunta inevitavelmente vem à mente: e se os outputs dos sistemas de IA violassem direitos autorais? O juiz Alsup afirmou: "Aqui, se os outputs vistos pelos usuários violassem direitos, os autores teriam um outro caso. E, se no futuro os outputs violarem direitos, os autores poderão propor nova ação."16

O juiz Chhabria também reconheceu que, até o momento, os modelos da Meta não estavam reproduzindo partes significativas das obras dos autores, graças a mecanismos eficazes para evitar a "memorização" de conteúdos protegidos.

Mas e se, de fato, os outputs infringirem direitos autorais, como alegado por autores em outros processos? Isso alteraria a análise de fair use?

Para essas perguntas, só nos resta acompanhar os próximos capítulos.

_______________

1 Ver, por exemplo, Espiner, T.; Jamali, L. Disney and Universal sue AI firm Midjourney over images (BBC, 11 de junho de 2025), https://www.bbc.com/news/articles/cg5vjqdm1ypo.

2 Sobre o tema, ver Branco, S.; Veloso, J.; Schirru, L. Seis Pontos sobre a terceira parte do relatório em Direitos Autorais e Inteligência Artificial do Copyright Office (Medium, ITS Feed, 16 de junho de 2025), https://feed.itsrio.org/seis-pontos-sobre-a-terceira-parte-do-relat%C3%B3rio-em-direitos-autorais-e-intelig%C3%AAncia-artificial-do-6874bd512958.

3 Bartz v. Anthropic PBC, 3:24-cv-05417, (N.D. Cal.), https://www.courtlistener.com/docket/69058235/bartz-v-anthropic-pbc/?filed_after=&filed_before=&entry_gte=&entry_lte=&order_by=desc.

4 Kadrey v. Meta Platforms, Inc., 3:23-cv-03417, (N.D. Cal.), https://www.courtlistener.com/docket/67569326/kadrey-v-meta-platforms-inc/?filed_after=&filed_before=&entry_gte=&entry_lte=&order_by=desc.

5 17 U.S. Code § 107 - Limitations on exclusive rights: Fair use https://www.law.cornell.edu/uscode/text/17/107. Texto original: "(1)the purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes; (2)the nature of the copyrighted work; (3)the amount and substantiality of the portion used in relation to the copyrighted work as a whole; and (4)the effect of the use upon the potential market for or value of the copyrighted work.". Para mais informações sobre o fair use em casos envolvendo direitos autorais e tecnologia, recomendamos a leitura de Pamela Samuelson, 'Fair Use Defenses in Disruptive Technology Cases' (2024) 71 UCLA Law Review 1484

6 Schirru, L. Latest Developments on Training GenAI with Copyrighted Works and Some 'What Ifs?' (Infojustice, 30 de Junho de 2025), https://infojustice.org/archives/46532.

7 Texto original: "was exceedingly transformative and was a fair use."

8 Texto original: "because all Anthropic did was replace the print copies it had purchased for its central library with more convenient space-saving and searchable digital copies for its central library - without adding new copies, creating new works, or redistributing existing copies"

9 Texto original: "What copyright law cares about, above all else, is preserving the incentive for human beings to create artistic and scientific works. Therefore, it is generally illegal to copy protected works without permission. And the doctrine of "fair use," which provides a defense to certain claims of copyright infringement, typically doesn't apply to copying that will significantly diminish the ability of copyright holders to make money from their works (thus significantly diminishing the incentive to create in the future)."

10 Texto original: "by training generative AI models with copyrighted works, companies are creating something that often will dramatically undermine the market for those works, and thus dramatically undermine the incentive for human beings to create things the old-fashioned way."

11 Texto original: "copying the protected works, however transformative, involves the creation of a product with the ability to severely harm the market for the works being copied, and thus severely undermine the incentive for human beings to create".

12 Texto original: "First, the plaintiff might claim that the model will regurgitate their works (or outputs that are substantially similar), thereby allowing users to access those works or substitutes for them for free via the model. Second, the plaintiff might point to the market for licensing their works for AI training and contend that unauthorized copying for training harms that market (or precludes the development of that market). Third, the plaintiff might argue that, even if the model can't regurgitate their own works or generate substantially similar ones, it can generate works that are similar enough (in subject matter or genre) that they will compete with the originals and thereby indirectly substitute for them. In this case, the first two arguments fail. The third argument is far more promising, but the plaintiffs' presentation is so weak that it does not move the needle, or even raise a dispute of fact sufficient to defeat summary judgment."

13 Texto original: "this ruling does not stand for the proposition that Meta's use of copyrighted materials to train its language models is lawful. It stands only for the proposition that these plaintiffs made the wrong arguments and failed to develop a record in support of the right one."

14 Texto original: "The database wouldn't work any better or worse if it contained books full of complete gibberish or written in unknown languages. If someone searched for that text, those books would appear. Here, by contrast, if Meta's LLMs are to generate high-quality text, they need coherent, reasonably high-quality training data. In other words, they need high-quality expression. Therefore, the "intermediate copying" cases don't apply."

15 Texto original: "when it comes to market effects, using books to teach children to write is not remotely like using books to create a product that a single individual could employ to generate countless competing works with a minuscule fraction of the time and creativity it would otherwise take. This inapt analogy is not a basis for blowing off the most important factor in the fair use analysis."

16 Texto original: "Here, if the outputs seen by users had been infringing, Authors would have a different case. And, if the outputs were ever to become infringing, Authors could bring such a case."

Luca Schirru

VIP Luca Schirru

Advogado, professor e consultor jurídico em direitos autorais. Pesquisador de pós-doutorado (INCC/IBICT). Coordenador de Pesquisa (Centre on Knowledge Governance). Research Fellow (CiTiP - KU Leuven).

AUTORES MIGALHAS

Busque pelo nome ou parte do nome do autor para encontrar publicações no Portal Migalhas.

Busca