A rápida evolução da IA - inteligência artificial generativa tem levantado questões complexas sobre direitos autorais, levando órgãos reguladores e legisladores em todo o mundo a reavaliar as leis existentes. Em maio de 2025, o escritório de Direitos Autorais dos EUA (US Copyright Office - USCO) divulgou uma pré-publicação sobre "Direitos Autorais e Inteligência Artificial, Parte 3: Treinamento de IA Generativa". Paralelamente, o EUIPO - escritório de Propriedade Intelectual da União Europeia também lançou um estudo abrangente sobre o tema.
1. As principais conclusões do relatório do US Copyright Office sobre treinamento de IA generativa
O relatório do USCO, "Direitos Autorais e Inteligência Artificial, Parte 3: Treinamento de IA Generativa", é o terceiro volume de seu estudo e aborda o uso de obras protegidas por direitos autorais no desenvolvimento de sistemas de IA generativa. O documento1 explora se os atos de treinamento requerem consentimento ou compensação dos detentores de direitos autorais e como isso poderia ser viabilizado.
Infração prima facie
O relatório afirma que as etapas para produzir um conjunto de dados de treinamento contendo obras protegidas por direitos autorais "claramente implicam o direito de reprodução". Desenvolvedores criam múltiplas cópias de obras protegidas durante o processo de treinamento: baixando, reformatando, transferindo entre sistemas e incorporando-as em conjuntos de dados de treinamento.
Além disso, "o processo de treinamento também implica o direito de reprodução". Durante o treinamento, obras ou porções substanciais de obras são temporariamente reproduzidas à medida que são "mostradas" ao modelo.
O relatório discute a controvérsia sobre se os "pesos" do modelo — os parâmetros numéricos que codificam o que ele aprendeu — podem constituir uma cópia. O USCO conclui que "há um forte argumento de que copiar os pesos do modelo implica o direito de reprodução para os exemplos memorizados" em casos em que o modelo pode gerar conteúdo idêntico ou quase idêntico a partir dos dados de treinamento. Se a expressão “protegível” estiver embutida nos pesos, a cópia subsequente desses pesos por terceiros, não envolvidos no treinamento, também poderia constituir infração prima facie.
Fair use
O relatório identifica o fair use como a principal defesa disponível contra alegações de infração de direitos autorais envolvendo IA generativa.
O USCO conclui que o treinamento de um modelo de IA generativa em um grande e diverso conjunto de dados será "muitas vezes transformativo". Isso, porque o processo converte uma vasta coleção de exemplos de treinamento em um modelo estatístico capaz de gerar uma ampla gama de resultados em diversas novas situações. No entanto, a transformatividade é uma questão de grau e dependerá da funcionalidade do modelo e de como ele é implantado. O relatório rejeita a ideia de que o treinamento de IA seja inerentemente transformativo por ser "não expressivo" ou por ser como a "aprendizagem humana". Argumenta-se que a aprendizagem por IA difere da humana por envolver a criação de cópias perfeitas e a capacidade de análise super-humana.
A questão da comercialidade é avaliada pelo propósito do uso, não apenas pelo status da entidade (com ou sem fins lucrativos), e a "lavagem de dados" (em que entidades sem fins lucrativos desenvolvem dados para empresas comerciais) é considerada relevante. Além disso, segundo a posição do USCO, a utilização de conjuntos de dados acessados ilegalmente pesa contra o fair use, mas não é determinante.
O relatório observa que, como os modelos de IA generativa são frequentemente treinados em uma variedade de obras, a avaliação sob o fator da natureza da obra dependerá do modelo e das obras em questão. Obras mais expressivas ou inéditas tendem a desfavorecer o fair use.
O treinamento de modelos de IA geralmente envolve o uso de todas ou substancialmente todas as obras. Embora isso geralmente pese contra o fair use, o relatório reconhece que a utilização de obras inteiras pode ser "necessária para algumas formas de treinamento para muitos modelos de IA generativa". A questão relativa a quanto do material copiado é disponibilizado ao público também é relevante e, se houver limites eficazes para o uso de material protegido no resultado, o fator de substancialidade da porção utilizada pode pesar menos contra o fair use.
Entre os impactos no mercado original dos autores, o relatório analisa a perda de vendas, a diluição de mercado (no qual o conteúdo gerado por IA, mesmo que não substancialmente semelhante, compete no mercado pelo tipo de obra) e a perda de oportunidades de licenciamento. O relatório argumenta que a "velocidade e escala com que os sistemas de IA geram conteúdo representam um sério risco de diluir mercados para obras do mesmo tipo que em seus dados de treinamento". O licenciamento voluntário está emergindo em alguns setores e, nos casos em que "mercados de licenciamento estão disponíveis para atender às necessidades de treinamento de IA", o uso não licenciado será desfavorecido.
Ao citar diferentes estratégias ao redor do mundo, o relatório menciona o caso do Brasil, explicando que “um projeto de lei pendente exigiria que as empresas de IA compensassem os detentores de direitos pelo uso de suas obras em treinamento. A minuta orienta as partes a discutirem a compensação de forma a permitir que os detentores de direitos negociem de forma eficaz, direta ou coletivamente, calculem uma compensação que considere de forma razoável e proporcional o tamanho do agente de IA e os possíveis impactos sobre a concorrência, e preservem a liberdade de acordo.”
Licenciamento para treinamento de IA
O USCO explora diferentes estratégias de licenciamento, incluindo licenciamento voluntário (direto ou coletivo), licenciamento compulsório e licenciamento coletivo estendido (ECL). O relatório observa que o licenciamento voluntário já está ocorrendo e é considerado "viável, pelo menos em certos contextos". Embora existam desafios práticos, o USCO recomenda permitir que o mercado de licenciamento continue a se desenvolver sem intervenção governamental prematura e, se restarem falhas de mercado, uma intervenção direcionada, como o ECL, deve ser considerada.
Reações ao relatório do US Copyright Office
A divulgação da minuta do relatório, que representa a posição do US Copyright Office após anos de engajamento com as partes interessadas, gerou reações diversas. Embora o relatório se incline a favor dos detentores de direitos autorais, especialmente com a teoria da diluição de mercado, seu status como política oficial é incerto.
Grupos de autores, como a Authors Guild, receberam o relatório de forma positiva, afirmando que ele "confirma as posições e análises" da organização sobre o tema. Eles destacam que o relatório questiona argumentos comuns de defensores da IA, como a alegação de que a IA não copia elementos expressivos ou que não há mercados de licenciamento existentes para adquirir obras para dados de treinamento. A organização ressalta que o relatório não declara o treinamento de IA como fair use automaticamente, exigindo uma avaliação caso a caso. Além disso, a Authors Guild aponta que o relatório considera o uso de obras protegidas por direitos autorais adquiridas de sites piratas para construir modelos de IA como improváveis de serem considerados fair use.
Por outro lado, a EFF - Electronic Frontier Foundation criticou veementemente o relatório, afirmando que ele "atrapalha" a aplicação do fair use e "erra" na análise da questão central, que é verificar se o treinamento de IA generativa é um uso justo. A EFF argumenta que o relatório "equivoca-se" ao aplicar princípios estabelecidos do fair use e, em última análise, favorece os detentores de direitos autorais em detrimento da criatividade e da inovação. Segundo a organização, a análise do USCO confunde repetidamente o uso de obras para treinar modelos com o uso do modelo para criar obras substancialmente semelhantes, além de adotar uma nova teoria de "dano ao mercado" sem precedentes judiciais. A EFF sustenta que a análise de uso transformativo do relatório ignora o ato real de treinamento, atendo-se ao uso final do modelo, o que deturpa o conceito de uso transformativo. A fundação também questiona a relevância da "má-fé" ou do "direito de controlar" o uso de obras na análise de fair use, argumentando que o fair use inerentemente significa que o consentimento não é necessário. A EFF conclui que o relatório é um "julgamento político" e não uma avaliação imparcial da lei existente, e que os tribunais "não deveriam seguir as especulações" do USCO, mas, sim, "seguir os precedentes".
2. O estudo do EUIPO e a abordagem europeia
Em 12/5/25, o EUIPO - Escritório de Propriedade Intelectual da União Europeia também lançou um estudo abrangente intitulado "O desenvolvimento da Inteligência Artificial Generativa a partir de uma Perspectiva de Direitos Autorais". Este estudo é resultado de extensa pesquisa e análise, visando a entender como os sistemas de IA generativa interagem com os direitos autorais, tanto técnica e juridicamente quanto economicamente.
O estudo do EUIPO concentra-se em três áreas interconectadas: (1) o uso de obras protegidas por direitos autorais, como: dados de treinamento para modelos de IA generativa, (2) a geração de novo conteúdo por esses sistemas e as questões legais que isso levanta e (3) as implicações mais amplas para criadores, desenvolvedores de IA e o ecossistema de direitos autorais.
Panorama legal e TDM na UE
O estudo explora o estado atual da legislação da UE sobre IA generativa, incluindo a CDSM - Diretiva de Direitos Autorais no Mercado Único Digital e o EU AI Act. A Diretiva CDSM criou um quadro legal para a TDM - "mineração de texto e dados", que é um processo central no desenvolvimento da IA generativa. A TDM envolve coleta, análise e uso de conteúdo como input para desenvolver os parâmetros e "pesos" de um modelo de IA.
A Diretiva CDSM introduziu duas exceções obrigatórias para TDM:
- Art. 3: Permite TDM por organizações de pesquisa e instituições de patrimônio cultural para fins de pesquisa científica, desde que tenham acesso legal ao conteúdo. Esta exceção é mais abrangente, não permitindo oposição dos detentores de direitos, excluindo mecanismos de compensação.
- Art. 4: Permite TDM por qualquer usuário, incluindo desenvolvedores comerciais de IA, mas está sujeita à capacidade dos detentores de direitos de "expressamente reservar" seus direitos de reprodução exclusiva, o que é comumente referido como opt-out da exceção de TDM. Para ser válido, o opt-out deve ser feito de forma expressa, pelo detentor do direito, e de maneira apropriada, incluindo "meios legíveis por máquina" para conteúdo disponibilizado publicamente on-line.
O EU AI Act estabelece um quadro regulamentar para as tecnologias de IA na UE. Em relação aos direitos autorais, impõe obrigações aos provedores de modelos de IA de uso geral (GPAI) para cumprir o art. 4 da Diretiva CDSM, respeitando os opt-outs de TDM expressos pelos detentores de direitos autorais. Além disso, os provedores de sistemas GPAI são obrigados a publicar resumos suficientemente detalhados dos dados de treinamento de que se utilizam, para facilitar a capacidade dos detentores de direitos autorais de fazer valer os seus direitos. O AI Act também impõe obrigações aos implantadores de sistemas GenAI para garantir que o resultado generativo seja detectável em um formato legível por máquina.
Ao analisar os movimentos dos mercados para se adequarem à regulação, o estudo identificou que nenhuma solução surgiu como o único mecanismo-padrão de opt-out para que os detentores de direitos expressem suas reservas de direitos relacionados a TDM ou medida de transparência para identificar e divulgar a natureza do conteúdo sintético.
O estudo também concluiu que a situação atual sugere um possível papel para as autoridades públicas no fornecimento de suporte técnico para a implementação e administração de bancos de dados de reservas de TDM e na conscientização sobre medidas e boas práticas para mitigar a possível produção de infrações.
Disputas legais em curso na UE
Embora os litígios relacionados a violações de direitos autorais no contexto de treinamento de IA generativa tenham sido relativamente limitados na UE em comparação com os dos EUA, o estudo identifica quatro casos.
O caso Kneschke vs. LAION na Alemanha é notável por ser a primeira decisão judicial na UE em uma disputa privada sobre direitos autorais e treinamento de IA. O tribunal considerou que as atividades da LAION (um grande provedor de conjuntos de dados de texto-imagem) eram permitidas sob a exceção de TDM para pesquisa científica (art. 3 da CDSM), levantando preocupações sobre uma possível "lavagem de dados" (quando dados coletados sob uma exceção de pesquisa são usados para fins comerciais).
Os outros casos mencionados são: GEMA vs OpenAI (Alemanha, 2024); GEMA vs Suno AI (Alemanha, 2025) e Syndact national de l’édition vs Meta (França, 2025).
Mercados de licenciamento direto e fatores impulsionadores
O estudo do EUIPO observa o surgimento de um mercado de licenciamento direto para dados de treinamento de IA, havendo vários acordos já celebrados entre detentores de direitos e desenvolvedores de IA. Os fatores que impulsionam esses acordos incluem:
- Reservas de direitos como condição de mercado: A capacidade dos detentores de direitos de fazer o opt-out de suas obras do TDM cria as condições para um mercado de licenciamento de permissões para usos comerciais de TDM.
- Escassez de dados: Previsões de escassez de dados de alta qualidade no futuro aumentam o valor potencial do licenciamento direto, incentivando os detentores de direitos a buscarem remuneração.
- Demanda por qualidade de dados: A necessidade de dados de alta qualidade, especialmente para o fine-tuning de modelos de IA, impulsiona o mercado de licenciamento, pois dados licenciados diretamente tendem a ter metadados mais ricos e menores riscos de duplicação.
- Aversão a riscos e ética da IA: A crescente incerteza legal e a demanda por práticas de negócios de IA "éticas" (como a certificação "Fairly Trained") levam os desenvolvedores de IA a buscar dados licenciados para mitigar riscos legais e atender às expectativas dos consumidores.
Outros aspectos incluem o valor agregado de metadados e anotações associados ao conteúdo que os detentores de direitos podem fornecer, o poder de negociação relativo das partes contratantes e o surgimento de serviços de agregação de conteúdo que servem como intermediários comerciais para detentores de direitos menores que buscam acessar o mercado de dados de treinamento de IA.
3. Abordagens comparadas: IA e direitos autorais nos EUA e na União Europeia
Os relatórios do USCO e do EUIPO representam esforços cruciais para adaptar os regimes de direitos autorais à era da IA generativa, cada um refletindo as nuances de seus respectivos sistemas jurídicos e prioridades. Embora ambos reconheçam os desafios impostos pela IA e a necessidade de proteger os criadores, suas abordagens para o equilíbrio entre inovação e proteção divergem em aspectos fundamentais.
O relatório do USCO, enraizado na doutrina do fair use, oferece uma orientação que tende a favorecer os criadores. Sua análise de fair use é granular, considerando a transformatividade do uso e introduzindo a controversa teoria da "diluição de mercado" como um dano significativo. A posição americana sugere que o mercado de licenciamento voluntário deve amadurecer sem intervenção governamental prematura. Opções como o licenciamento compulsório são consideradas apenas em casos comprovados de falha de mercado, devido à sua inflexibilidade e aos altos custos administrativos.
Por outro lado, o estudo do EUIPO, fundamentado no sistema de "lista fechada" de exceções da União Europeia, adota uma abordagem mais proativa. A Diretiva CDSM e o EU AI Act estabelecem um framework legal explícito para a TDM - "mineração de texto e dados" e a obrigatoriedade de respeito aos mecanismos de opt-out. Este modelo legal busca alinhar a proteção dos direitos com a inovação, definindo claramente as condições sob as quais as obras podem ser utilizadas para treinamento de IA. O EUIPO não apenas reconhece o surgimento do mercado de licenciamento direto para dados de treinamento, mas também detalha os fatores econômicos que o impulsionam, como a escassez de dados de alta qualidade e a aversão a riscos por parte dos desenvolvedores de IA, posicionando as autoridades públicas como facilitadoras. A litigância na UE, embora menos volumosa que nos EUA, já levanta questões específicas sobre a aplicação das exceções de TDM, como no caso Kneschke vs. LAION, bem como a preocupação com a "lavagem de dados".
As principais distinções residem na natureza da flexibilidade legal e na abordagem regulatória. Enquanto o fair use americano oferece flexibilidade judicial caso a caso, o modelo europeu opta por exceções mais específicas e uma estrutura regulatória abrangente para a IA incluindo requisitos de transparência para dados de treinamento. Ambas as jurisdições, no entanto, convergem quanto à importância do licenciamento como um caminho viável para a remuneração de criadores, embora com diferentes níveis de maturidade e de necessidade de intervenção regulatória.
______________
1 https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf