Migalhas de IA e Proteção de Dados

Oportunidades e dificuldades das IAs (Inteligências Artificiais) generativas no Direito

As IAs generativas, a exemplo do ChatGPT, LLaMa e Gork, aproximaram os usuários do futuro da Inteligência Artificial. A discussão hoje é sobre quais são os caminhos que devemos guiar essas IAs para fortalecer o Direito no Brasil.

10/11/2023

Introdução

Muito se tem ouvido falar recententemente sobre as aplicações e implicações da Inteligência Artificial. Riscos à proteção de dados e à privacidade, preconceito e discriminação, falta de transparência, deslocamento do trabalho, desafios regulatórios, concentração de poder, e tantos outros. Realmente a última década ficou marcada por uma presença mais expressiva da IA na sociedade, majoritariamente por meio de aplicativos de redes sociais e inovações de grandes empresas de software que trazem essas novidades embutidas nos mais diversos equipamentos que consumimos, de automóveis à TVs, de relógios à distribuição de energia elétrica (smart grids). Hoje tudo é smart alguma coisa.

No entanto, esse panorama começou a mudar logo na virada da década passada para a atual. Até então, tudo que era rotulado por ter alguma forma de IA embutida advinha de módulos específicos criados para tarefas específicas. Explico: Por exemplo, as traduções automatizadas feitas por computador, a exemplo do Português para o Inglês, são ensinadas à máquina e deste ensinamento se produz um módulo de tradução Português-Inglês. Para adicionar outra língua ao tardutor, Português-Francês, por exemplo, temos que ensinar a tradução novamente à máquina nesta nova língua, o Francês. Ou seja, neste paradigma (modelo) de IA, cada módulo deve ser treinado, com supervisão humana (isso é importante), sobre dados específicos para realizar uma tarefa específica. Quase nada se aproveita do ensinamento ou conhecimento anterior, neste exemplo, do conhecimento de tradução Português-Inglês é praticamente inútil para outras traduções. Assim, praticamente até agora, tudo era estanque em IA. Quase nada que se ensinava para uma tarefa poderia ser aproveitada para outra. Da IA de um carro autônomo que se auto guia em cidades e estradas, quase nada se aproveita para um eventual carro de Formula 1 guiado por uma IA, por exemplo.

No início dos anos 2020 esse paradigma de IA criado sobre módulos que operam sobre tarefas específicas começou a mudar. Um novo paradigma de IA surge com modelos computacionais treinados sobre uma quantidade gigantesca de dados, dados esses estruturados (tabelas) ou não estruturados (textos livres), num treinamento sem supervisão humana. Surgem nesta época modelos como o GPT-3 e DALL-E da Open.ai e o BERT, da Google.

E o que mudou? Bem, curiosamente esse novo paradigma de IA faz o aprendizado do que chamamos de ‘modelo de linguagem’. A duras penas, ou melhor, a um custo computacional enorme, essas empresas pegaram quase que todo o conteúdo  disponível na web (sites, jornais, blogs, livros, entrevistas, etc.) e, a grosso modo, calcularam a probabilidade de ocorrência de uma palavra dadas as palavras anteriores que ocorrem num texto. Na prática, você insere um texto nestes modelos e o modelo completa. Você começa a escrever uma história fictícia e o modelo completa. É o que chamamos de ‘modelo generativo’. Faça uma pergunta genéria e o modelo responde. Duas grandes transformações vimos a partir deste novo paradigma: 1) Esse novo paradigma de IA passou a fazer bem as tarefas específicas que outros módulos de IA também faziam bem. Por exemplo: tradução de textos entre várias línguas, geração de cartas, memorandos e ofícios, correção de textos, resposta às dúvidas, recordação de temas históricos, codificação de programas de computador, resolução charadas, etc., e, talvez a melhor parte; 2) Esse novo paradigma realiza o chamado ‘aprendizado de transferência’ (transfer learning) que é uma abordagem de aprendizado de máquina em que o conhecimento adquirido numa tarefa é reaproveitado para melhorar o desempenho de outra tarefa relacionada. Ou seja, esse novo paradigma de IA aproveita tudo o que aprendeu.

A próxima tendência na IA procura substituir as antigas IAs específicas que têm prevalecido no cenário até o momento. O futuro prevê modelos treinados em um conjunto abrangente de dados não rotulados, adaptáveis para diversas tarefas com ajuste mínimo. Essa nova IA será feita sobre os chamados "modelos fundacionais" (foundation models). Este termo ganhou popularidade através do Instituto Stanford de Inteligência Artificial Centrada no Ser Humano (Stanford Institute for Human-Centered Artificial Intelligence (HAI))1. O motivo deste nome é claro ser pensarmos que a proposta atual deste paradigma é montar um modelo abrangente de IA que possa ser especializado oportunamente.

E esse é o ponto: a especialização. Termo que na Computação emprestamos do termo em Inglês, o fine-tuning. Assim, devemos esperar para o futuro quando grandes modelos de linguagem serão especializados em tarefas específicas, ou melhor, por enquanto especializados em grandes áreas do conhecimento, tais como o Direito.

Os grandes modelos de linguagem e o Direito

As aplicações dos modelos de linguagem servem ‘como uma luva’ para a área do Direito por alguns bons motivos, tais como: a) os modelos de linguagem captam e processam dados textuais com mais facilidade do que as imagens e sons; b) o conhecimento em Direito, se comparado com outras áreas, como por exemplo muitas áreas de exatas que condensam o conhecimento em fórmulas e teoremas, é difuso, propício à leitura e à exploração textual, e c) o potencial de mercado a ser explorado ainda é bem amplo, pois existem poucos recursos computacionais nesta área, obviamente se comparado com outras áreas do conhecimento humano. Para saber mais, consulte 2 3 4 para uma busca pelo termo GPT neste site.

Toda essa introdução foi feita para contextualizar uma recente e prazeroza releitura de um artigo prestigiado com mais de 1.700 citações e já mencionado aqui, o artigo ‘On the opportunities and risks of foundation models’1. Mesmo sendo um artigo corrigido em 2022, o que pode parecer até desatualizado diante a agilidade dos desenvolvimentos na área, é um artigo que merece muito ser comentado dada a visão técnica sobre os impactos destas IAs generativas na sociedade. Por certo não irei comentar as mais de 200 páginas do artigo que aborda várias áreas da atuação humana, mas irei pontuar nos interesses dos leitores deste periódico (ou de parte deles para não me alongar demais).

Segundo a empresa Consultor Jurídico, numa postagem da mesma em 2017 (lá se vão seis anos), o mercado jurídico barsileiro movimenta R$ 50 bi por ano no Brasil e, por isso, essas grandes IAs irão tentar oferecer soluções que podem trazer as seguintes oportunidades listadas abaixo:

Oportunidades que os grandes modelos de linguagem podem proporcionar

Percebam que fiz comentários mais direcionados ao direito civil, no entanto, esse novo paradigma de IA irá se abrir para todas as demais áreas. Pensemos na facilidade que esses sistemas terão para triar casos e agrupá-los, na possibilidade de poderem responder à questões várias, tais como, dúvidas referente ao direito de família (seja sobre matrimônio, divórcio, partilha de bens, guarda, pensão, etc.), ou ainda sobre sucessões (como por exemplo, como fica os bens deixados pelo falecido, etc.), sobre leis específicas, Lei de Acesso à Informação, Lei Geral de Proteção de Dados, entre outras.

Dificuldades dos grandes modelos de linguagem 

Como era esperado, não só de ‘flores’ vivem os diversos modelos computacionais, incluindo aqui os modelos de IA generativa. Na IA clássica são conhecidos os casos de falta de transparência, discriminação e problemas de ingerência na privacidade alheia. A grande pergunta é: esses modelos de IA mais poderosos podem escalar estes antigos problemas?

Em tese, eles podem sim ter um potencial maior de risco, mas não é o que vimos até o momento com os vários modelos de linguagem disponíveis e, tomo como exemplo, o ChatGPT. Essas situações acima mencionadas sobre discriminação e privacidade são muito bem reguladas pelos desenvolvedores. A transparência ainda carece de boas explicações sobre as fontes de dados, como também são necessárias mais explicações sobre o processo funcionamento das IAs para as tomadas de decisão e ‘raciocínio’. Neste segundo ponto, sobre o seu modo de operação, a Ciência da Computação ainda terá um longo trabalho pela frente para explicar.

Problemas mais práticos são mais fáceis de serem observados. Por exemplo, comenta-se que uma petição inicial não deveria ter mais de 20 páginas. Sugestão essa que por vezes passa ao largo de muitas destas peças. Considerando as 20 com 300 palavras por lauda, contamos 6.000 palavras. O GPT-3.5 tem um limite máximo de geração de 3 mil palavras por texto, enquanto que a última versão, a 4.0, tem o limite de 25 mil palavras. Notem que é apenas a petição inicial.

Outra preocupação referente a estes modelos de linguagem é sobre o que chamamos de ‘recuperação de informação’, ou seja, aquilo que os buscadores fazem muito bem, encontrar documentos, e que as IAs generativas falham muitas vezes pois reescrevem estes textos. Dizem até que estas IAs deliram, mas este é um verbo mal empregado. Estas IAs erram mesmo. Identificar pessoas e normas jurídicas ainda não é o forte destas IAs, muito menos imaginar que elas raciocinam sobre dados e situações. Noto pelo modo humanizado como as gerações mais novas usam estas IAs que muitas pessoas parecem desconhecer que se trata ainda de um humanoide em fase de construção.

Por último, é crucial sublinhar que, mesmo que os modelos fundacionais se mostrem capazes de executar com êxito todas as tarefas no domínio jurídico, a implantação representa um desafio significativo. A falha de um modelo destes no campo jurídico pode resultar em consequências graves tanto para clientes como para advogados.

Para concluir, sabemos que as decisões jurídicas necessitam de contexto em múltiplas facetas, ou seja, desde uma compreensão de decisões anteriores e semelhantes, passando pela consciência da jurisprudência presente e, não menos, da compreensão das complexidades dos casos individuais. Os modelos de fundacionais possuem um potencial único até o momento para adquirir representações partilhadas de contextos históricos e jurídicos. Além disso, também possuem o claro poder linguístico e, quiçá, a precisão adequada para ressaltar casos individuais.

Bem-vindas sejam!

____________

1. BOMMASANI, Rishi et al. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258, 2021. Disponível aqui. Último acesso em 8 de novembro de 2023.

2. Especialista explica como ChatGPT pode ajudar advogados nas petições. Disponível no Migalhas. Último acesso em 8 de novembro de 2023.

3. CHATGPT: O que é. Disponível no Migalhas. Último acesso em 8 de novembro de 2023.

4. ChatGPT e Filhos Advogados Associados. Disponível no Migalhas. Último acesso em 8 de novembro de 2023.

5. Mercado jurídico movimenta R$ 50 bi por ano no Brasil, aponta levantamento. Disponível aqui. Último acesso em 9 de novembro de 2023.

6. The Legal Innovation & Technology Lab's Spot API. Disponível aqui. Último acesso em 9 de novembro de 2023.

Veja mais no portal
cadastre-se, comente, saiba mais

Coordenação

Cintia Rosa Pereira de Lima, professora de Direito Civil da Faculdade de Direito da USP Ribeirão Preto – FDRP. Doutora em Direito Civil pela Faculdade de Direito da USP com estágio na Ottawa University (Canadá) com bolsa CAPES - PDEE - Doutorado Sanduíche e livre-docente em Direito Civil Existencial e Patrimonial pela Faculdade de Direito de Ribeirão Preto (USP). Pó-doutora em Direito Civil na Università degli Studi di Camerino (Itália) com fomento FAPESP e CAPES. Líder e Coordenadora dos Grupos de Pesquisa "Tutela Jurídica dos Dados Pessoais dos Usuários da Internet" e "Observatório do Marco Civil da Internet", cadastrados no Diretório de Grupos de Pesquisa do CNPq e do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Presidente do Instituto Avançado de Proteção de Dados – IAPD - www.iapd.org.br. Associada Titular do IBERC - Instituto Brasileiro de Responsabilidade Civil. Membro fundador do IBDCONT - Instituto Brasileiro de Direito Contratual. Advogada.

Cristina Godoy Bernardo de Oliveira, professora doutora da Faculdade de Direito de Ribeirão Preto – Universidade de São Paulo desde 2011. Academic Visitor da Faculty of Law of the University of Oxford (2015-2016). Pós-doutora pela Université Paris I Panthéon-Sorbonne (2014-2015). Doutora em Filosofia do Direito pela Faculdade de Direito da USP (2011). Graduada pela Faculdade de Direito da USP (2006). Líder do Grupo de Pesquisa Direito, Ética e Inteligência Artificial da USP – CNPq. Coordenadora do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados – IAPD.

Evandro Eduardo Seron Ruiz, professor Associado do Departamento de Computação e Matemática, FFCLRP - USP, onde é docente em dedicação exclusiva. Atua também como orientador no Programa de Pós-graduação em Computação Aplicada do DCM-USP. Bacharel em Ciências de Computação pela USP, mestre pela Faculdade de Engenharia Elétrica da UNICAMP, Ph.D. em Electronic Engineering pela University of Kent at Canterbury, Grã-Bretanha, professor lLivre-docente pela USP e pós-Doc pela Columbia University, NYC. Coordenador do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados – IAPD.

Nelson Rosenvald é advogado e parecerista. Professor do corpo permanente do Doutorado e Mestrado do IDP/DF. Pós-Doutor em Direito Civil na Università Roma Tre. Pós-Doutor em Direito Societário na Universidade de Coimbra. Visiting Academic na Oxford University. Professor Visitante na Universidade Carlos III, Madrid. Doutor e Mestre em Direito Civil pela Pontifícia Universidade Católica de São Paulo – PUC/SP. Presidente do Instituto Brasileiro de Estudos de Responsabilidade Civil – IBERC. Foi Procurador de Justiça do Ministério Público de Minas Gerais.

Newton De Lucca, professor Titular da Faculdade de Direito da USP. Desembargador Federal, presidente do Tribunal Regional Federal da 3ª Região (biênio 2012/2014). Membro da Academia Paulista de Direito. Membro da Academia Paulista de Letras Jurídicas. Membro da Academia Paulista dos Magistrados. Vice-presidente do Instituto Avançado de Proteção de Dados.