COLUNAS

  1. Home >
  2. Colunas >
  3. Migalhas de IA e Proteção de Dados >
  4. A nossa Língua Portuguesa está em risco de extinção?

A nossa Língua Portuguesa está em risco de extinção?

sexta-feira, 5 de abril de 2024

Atualizado às 07:36

Dedico este texto a todas as crianças brasileiras, incluindo meus netos.

Introdução

A princípio, a língua falada por um povo, ou por uma nação, pode ser entendida simplesmente como uma ferramenta de comunicação, de troca de símbolos e/ou palavras, utilizada por pelos indivíduos desse grupo no seu cotidiano para transmitir informações e argumentos a outras pessoas. No entanto, quem já morou por longos tempos fora do nosso país sabe a necessidade que temos de conversar usando nossa língua materna quando encontramos um conterrâneo. Seja lá qual assunto for, é um conforto imenso ouvir um som conhecido, usar uma expressão regional, brincar com o sotaque alheio, ouvir uma anedota, lembrar-se de dizeres de nossos pais e amigos, lembrar dos sons que "seu tio" fazia, músicas de ninar, letras marcantes, "ouvir os sons" de frases de livros conhecidos... a língua pode fazer marejar os olhos. É intrínseca ao ser falante. Colou-se nas nossas mentes. Domina formas de expressão que só existem na sua língua originária. Expressões sem tradução.

Nesse contexto, não é possível dissociar a língua da cultura, pois ela representa a nação e tem uma relação estreita com a atitude ou comportamento dos grupos de falantes de uma língua. Mesmo que língua e cultura sejam traços distintos, existem muitos elementos que forçam uma relação de proximidade entre eles. Reparem, por exemplo no nosso caso, o caso de um país lusófono, ou seja, que tem a língua portuguesa como oficial ou como língua dominante. Somos um grupo de nove países lusófonos: Angola, Brasil, Cabo Verde, Guiné-Bissau, Guiné Equatorial, Moçambique, Portugal, São Tomé e Príncipe, Timor-Leste. Tomemos, a título de exemplo, três deles: Moçambique, Angola e Cabo Verde. Todos os três foram dominados por Portugal. Quatro contanto conosco. O cristianismo é presente em todos eles, ou seja, fomos formados nos moldes judaico-cristãos, a marca da civilização ocidental. Enquanto Angola já tinha a sua falofa, nós exportamos a nossa farofa. Todos comemos moquecas, feijoada (Portugal inclusive), cocada e mantemos vivo o bolo de mandioca. Nossos ritmos musicais se entrelaçam, nossas obras literárias são permeáveis pelas fronteiras físicas [3]. Embora também sejamos distintos em vários aspectos, todos abraçamos e mantemos a viva a mesma língua. Somos todos "moedas" destas nações, de um lado está a língua e do outro está a cultura.

As línguas em número

Atualmente são conhecidas mais de 7 mil línguas faladas no mundo. Esse mundo que eu falo é composto por 195 países. Sobram línguas. Entende-se aqui uma língua como um sistema de comunicação completo, ou seja, um sistema envolvendo a língua falada e a língua escrita. Estão fora desta conta, por exemplo, os 32 dialetos diferentes falados na Dinamarca. De todas estas línguas, apenas duas são faladas por mais de um bilhão de pessoas, o inglês e o mandarim [2]. A nossa língua ocupa a nona colocação entre as mais faladas com mais de 230 milhões de falantes, logo após o russo com 258 milhões.

Embora 7.139 línguas [3] seja um número bastante grande para 195 países, milhares de línguas correm o risco de entrar em extinção. De acordo com as Nações Unidas, uma língua indígena morre a cada duas semanas [4]. Como vimos, as línguas refletem tradições, ideais, conceitos e entendimentos únicos que nem sempre  podem ser traduzidos. Como afirmou a linguista Anastasia Riehl, as línguas são "uma fonte inestimável de informações sobre a cognição humana" [5]. Guardem esse trecho, "língua como fonte de cognição humana". A cognição é a construção do conhecimento por meio do processamento de informação. Iremos juntar estas partes, língua, conhecimento e informação, adiante neste texto.

Grande parte do perigo que ameaça as línguas indígenas é devido à transição do modo analógico (antigo) de vida para a vida digital. Insiro aqui o trabalho digital; a diversão digital; o digital que encurta as distâncias no mundo. Um estudo particularmente preocupante realizado pelo pesquisador András Kornai, um matemático linguista da Universidade de Budapeste, Hungria, previu que "menos de 5% de todas as línguas ainda podem ascender ao reino digital" e alertou que há "evidências de um grande declínio causado pela divisão digital" [4].

Pela colocação do Prof. Kornai, que por sinal não é uma voz solitária neste sentido, a grande ameaça atual às línguas pouco faladas (40% delas têm menos de mil falantes [3]) é a passagem para o mundo digital. Neste sentido, como veremos, está a nossa língua. Bem, o mundo digital reflete, em grande parte, o mundo real. A língua inglesa domina os sites no mundo, pois 52% deles estão escritos em inglês. Na sequência temos: Espanhol (5,5%), alemão, russo, japonês e francês ocupando valores na faixa dos 4% e o português ocupando a sétima colocação com os 3,1% já comentados.

Oscar Wilde disse que a memória é o diário que todos carregamos. "A memória guardará o que valer a pena. A memória sabe de mim mais que eu e ela não perde o que merece ser salvo" disse Eduardo Galeano, o escritor As Veias Abertas da América Latina. É uma pena, mas somos um país em que pouco se escreve e, consequentemente, pouco publica na web.

Bem, mas o que tudo isso sobre língua tem a ver com a Inteligência Artificial (IA)? Veremos abaixo que a língua está estreitamente relacionada com os rumos das abordagens de IA mais atuais. Vejamos! 

As línguas e o estado da arte da Inteligência Artificial

Atualmente quem "passa os olhos" sobre algum tema da área de Computação poderá perceber que o foco da área está na Inteligência Artificial. Temas correlatos como a tomada de empregos pela IA, responsabilidade pelas tomadas de decisão e, mais recentemente, os riscos aos direitos fundamentais e a democracia, todos estão de alguma maneira relacionado à IA.

O que mudou recentemente no panorama da IA foi a criação bem-sucedida do que chamamos de IAs generativas, ou seja, IAs que geram textos, cartas, memorandos, ofícios, livros, respondem a perguntas, traduzem documentos, geram e fazem mixagem de imagens, vídeos... todos esses elementos, essas diferentes mídias, com uma realidade impressionante. Peças que realmente parecem ter sido geradas por humanos. Aqui mesmo no Migalhas vários artigos já foram publicados sobre este tema. Destaco este de minha autoria [7], o qual discorro sobre alguns detalhes técnicos importantes para o Direito.

E o que estas IAs generativas tem a ver com a nossa língua? Bem, focando nas IAs generativas textuais, essas que geram, produzem textos, essas IAs são formadas a partir textos abertos ao público em geral, como por exemplo, quase todo o conteúdo da web, livros abertos e em domínio público, folhetins, propagandas etc. Todo tipo de texto sobre todos os temas em todas as línguas. Estas IAs aprendem a sequência de palavras descritas nestes textos e geram novos textos a partir do modelo textual que criam observando esta sequência gigante de palavras. Estima-se que são centenas de bilhões de palavras, ou até trilhões. Estas IAs são a consagração de um modelo computacional conhecido como modelo de linguagem e que hoje dita o que há de mais novo (e para muitos, assustador) na área de IA. Estas IAs generativas têm nomes já conhecidos, tais como o famoso ChatGPT, da empresa Open AI; o Copilot da Microsoft; a Meta, dona do Instagram, Facebook e WhatsApp, tem o Llama, e a Alphabet (Google) tem o Bard. Provavelmente você já deve ter usado uma destas IAs. Se você fez uma pesquisa recente no Google usando palavras-chave deve ter percebido que a primeira resposta devolvida foi um texto gerado artificialmente, elaborado para responder a sua pesquisa. Essa geração foi de um grande modelo de linguagem, uma IA generativa textual. Se ainda não usou para outros fins, sugiro que não fique para trás e faça seus testes.

Dado que o enorme disparate relativo à presença das línguas na web (52% de inglês, e 3,1% para o português) e dado que as grandes big techs são hoje empresas sediadas nos EUA é fácil ver que o estado da arte na IA é construído sobre a língua inglesa. Não obstante as repostas traduzidas destes modelos de linguagem para o português, o cerne destas máquinas generativas é a língua inglesa. Lembram-se que antes, neste mesmo texto, chamamos a atenção para as palavras da linguista Anastasia Riehl que diz que as línguas são "uma fonte inestimável de informações sobre a cognição humana" [5]. Pois então, muito embora estas máquinas ainda não tenham a capacidade de raciocinar como nós humanos, a cognição é a construção do conhecimento por meio do processamento de informação. Lembro que essa informação hoje está toda em inglês e é sobre esta língua que estamos construindo as IAs que iremos adotar no Brasil? Será esse o futuro nosso, perder a soberania e a beleza da nossa língua para uma IA?

Não me afeta a dinâmica de uma língua viva quando submetida à globalidade, como é o caso do Brasil. Toda língua viva sofre influências de estrangeirismos. Penso que se nós percebêssemos a semelhança entre os termos "smart phone" e "telefone inteligente" não cometeríamos esse tipo de engano ao nomear o respectivo equipamento que de "inteligente" nada tem. "Performance" parece um termo distinto e profissional, mas talvez evite comentários sobre o real "desempenho" da referida coisa. A coisa pode estar "on sale", mas entre quatro paredes o que convence mesmo a redução de preços, é a "liquidação". A pergunta é até quando devemos ceder a estas tentações? Deve haver um ponto de equilíbrio. Como pode um terminal de "check-in" no maior aeroporto nacional não se comunicar em português com o usuário? Um manual que não tem instruções em português? Um carro em que todos os controles estão etiquetados em inglês? E agora adotaremos uma IA "gringa"? Será que nosso IR, o leão, poderá ser analisado por uma IA estrangeira?

Alguns ainda lutam e persistem. Outros já acordaram para o fato já há algum tempo, como a Maritaca AI [8] que é uma empresa brasileira, de Campinas, que desenvolve inteligências artificiais especializadas em domínios e idiomas. Com profissionais ligados à Unicamp, esta empresa criou o primeiro grande modelo de linguagem baseado na língua portuguesa, o sistema Sabiá que hoje está na sua segunda versão, o Sabiá-2, o qual já se mostra competitivo com o ChatGPT. Creio que a partir de iniciativas como essa é que poderemos avançar no conhecimento e nas aplicações que são voltadas aos textos, assim como é o Direito. Espera-se que essa atenção especial à língua portuguesa por parte de um modelo de linguagem criado sobre o português deverá propiciar, gerar e compreender textos que respondem à nossa lógica de argumentação e explanação que pouca ou nenhuma relação tem com o Direito baseado na common law, comum nos países de língua inglesa. Que venham as IAs generativas, é parte inevitável do futuro, mas que venham para nos auxiliar, que fale e que entenda nossos meios e costumes e, por isso, que venha em português. Que fale conosco como nós falaremos com ela.

Se as novas tecnologias demandam atenção e, eventualmente, uma regulação por parte da sociedade, demandam também a preocupação com nosso futuro, com a nossa soberania e com a nossa cultura. Espero que, num futuro próximo, nossos descendentes possam decidir se preferem dizer "the book is on the table" ou se lerão as fábulas de Monteiro Lobato para seus filhos.

__________ 

Referências bibliográficas 

1. Com ampla diversidade cultural, países lusófonos africanos carecem de atenção do Brasil. Disponível aqui. Último acesso em 3 de abril de 2024.

2. The Most Spoken Languages 2023 Disponível no aqui. Último acesso em 3 de abril de 2024.

3. How many languages are in the world today. Disponível aqui. Último acesso em 3 de abril de 2024.

4.A language dies every 2 weeks. AI can help save them from digital extinction-or accelerate their demise. Disponível aqui. Último acesso em 3 de abril de 2024.

5. Why Are Languages Worth Preserving. Disponível aqui. Último acesso em 3 de abril de 2024.

6. Languages most frequently used for web content as of January 2024, by share of websites. Disponível aqui. Último acesso em 3 de abril de 2024.

7. Oportunidades e dificuldades das IAs (Inteligências Artificiais) generativas no Direito. Disponível aqui. Último acesso em 3 de abril de 2024.

8. Maritaca AI. Disponível aqui. Último acesso em 3 de abril de 2024.