Sistemas de inteligência artificial generativa estão trilhando um rápido caminho para se tornarem ubíquos. Enquanto a utilização de ferramentas de geração de áudio, texto e imagens cresce a passos largos, empresas desenvolvedoras de sistemas de IA vêm travando batalhas jurídicas nos tribunais na seara dos direitos autorais. O capítulo mais recente deste cenário foi a ação movida pelo The New York Times, o mais influente jornal americano, contra a Microsoft e a Open IA, empresa desenvolvedora do ChatGPT.
Entre outras alegações, o Times acusa a Open AI de utilizar conteúdos produzidos pelo jornal e protegidos por direitos autorais para o treinamento do ChatGPT. O jornal alega ainda que o ChatGPT não só utiliza os dados para treinamento, mas também é capaz de replicar matérias e artigos protegidos pelo sistema de paywall, mediante requisição do usuário da plataforma, fato que prejudica a venda de assinaturas.
Segundo o NYT, a atividade jornalística é uma atividade que demanda altos investimentos e o resultado da produção intelectual de seus jornalistas e articulistas não pode ser apropriado por terceiros de forma desautorizada e, principalmente, não remunerada.
Em outras palavras, o jornal alega que seu conteúdo deveria ser licenciado para a Open AI, mediante pagamento acordado entre as partes. O jornal, vale dizer, iniciou tratativas junto à Open AI para o licenciamento de seus conteúdos, mas as partes nunca chegaram a um acordo a este respeito.
Não há controvérsia no fato de que o conteúdo do New York Times disponibilizado na internet – assim como o de outros veículos de mídia – é largamente utilizado pelas empresas de IA no desenvolvimento de seus produtos e no treinamento de seus modelos de IA generativa. Como admitido pela própria Open AI, o uso de bases de dados massivas é requisito essencial para o desenvolvimento de ferramentas de inteligência artificial baseadas no processamento de linguagem natural. É por meio de grandes bases de dados que os modelos de IA identificam padrões e extraem “conhecimento”, podendo, então, gerar novos conteúdos a partir daquilo que foi processado.
Um dos cernes da defesa das empresas desenvolvedoras de sistemas de IA é a alegação de que a utilização de conteúdo protegido caracteriza “fair use” (uso justo). Trata-se de exceção ao arcabouço de proteção legal que possibilita a utilização de conteúdos protegidos por direitos autorais por terceiros, a depender da finalidade e do tipo de uso feito da obra.
A doutrina do fair use tem vasta aplicação nas discussões sobre direitos autorais no mercado americano e foi o alicerce de defesa do Google no célebre processo movido pela organização de autores “Authors Guild” envolvendo a ferramenta Google Books.
Na ocasião, o Google foi processado por escanear, minerar, indexar e disponibilizar trechos de milhões de livros na construção da ferramenta de busca Google Books. A ferramenta também possibilitava a extração de dados estatísticos, como o número de menções de uma determinada palavra em dada obra. Em 2015, a Justiça americana deu ganho de causa ao Google, reconhecendo que a utilização das obras não caracterizava a violação de direitos autorais.
O precedente em questão possui aproximações com o caso levado ao Judiciário pelo New York Times e seus argumentos podem influenciar o desfecho do caso em favor da Open AI.
De acordo com a doutrina, o uso justo de obras protegidas por direitos de autor seria possível desde que caracterizados 4 critérios:
Finalidade e caráter do uso: o uso deve ser transformativo. O trabalho emergente do uso deve ser uma nova obra, e não uma cópia da original.
Natureza da obra protegida: obras ficcionais são sujeitas a um grau maior de proteção do que obras meramente factuais.
O volume da obra utilizado: quanto menos volume da obra original for utilizado e quanto menor sua influência na criação de nova obra, maior a possibilidade de se caracterizar o uso justo.
O efeito do uso da obra protegida: deve ser avaliado se o uso transformativo priva o autor da obra original de proveitos financeiros derivados da exploração da nova
Considerando que os direitos autorais, especialmente no sistema de common law, tem um caráter predominantemente comercial, o quarto e último requisito tem um grande peso na avaliação sobre a ocorrência do uso justo.
No processo movido contra o Google, o judiciário reconheceu que o uso das obras era transformativo, na medida em que o conteúdo dos livros foi utilizado para viabilizar a ferramenta e ofertar informações ao público, sem necessariamente disponibilizar a íntegra dos conteúdos aos leitores.
Defensores da aplicação da doutrina do fair use no contexto da inteligência artificial argumentam que a utilização dos datasets é transformativo, na medida em que o conteúdo é utilizado apenas para a geração de conhecimento pela ferramenta e, em última instância, a geração de outputs que terão uma função totalmente distinta da natureza informativa das matérias jornalísticas.
No precedente julgado em favor do Google, pesou o entendimento de que a ferramenta limita a visualização do conteúdo dos livros, permitindo apenas que os usuários visualizem pequenos trechos das obras. Prevaleceu o entendimento de que os trechos disponibilizados gratuitamente não concorriam ou prejudicavam os autores ou a potencial vendagem das obras.
No caso NYT x Open AI, esta última argumenta que o uso de informações não prejudica a exploração comercial das reportagens e artigos publicados pelo jornal, na medida em que as ferramentas de IA e os conteúdos gerados por ela não concorrem com o consumo de conteúdos jornalísticos (alegação refutada pelo NYT, que afirma que frequentemente os outputs das ferramentas reproduzem cópias quase literais das matérias publicadas pelo jornal, limitando o potencial de seus ganhos).
Nos comentários submetidos à consulta pública aberta pelo Escritório de Direitos Autorais dos Estados Unidos (USPTO), a Microsoft defende que o valor comercial de uma obra não é diminuído se uma pessoa analisa e extrai aprendizado daquela obra[1]. Da mesma forma, este valor remanesce intacto se ela é analisada por uma ferramenta de IA apenas para a extração de conhecimento, e não para a reprodução não autorizada de sua expressividade artística. Apesar de as ferramentas de IA sejam “alimentadas” com milhares de artigos e matérias jornalísticas protegidas, o propósito da utilização não é a reprodução da obra ou a disponibilização de cópias dos textos para o público, e sim a extração e o aprendizado de padrões para a criação de novos conteúdos distintos das obras utilizadas na fase de treinamento dos modelos de IA.
Na resposta à mesma consulta lançada pela USPTO, o Google defende que o aprendizado de máquina pelas ferramentas conhecidas como “Large language models” (LLM) se assemelha aos processos de engenharia reversa, na medida em que o treinamento dos modelos se dá por meio da desconstrução da linguagem e sua reconstrução a partir de um modelo matemático[2].
Embora existam muitas nuances que diferenciam os dois casos, o precedente estabelecido pelo caso “Google Books” pode impactar diretamente a decisão a ser adotada pelas cortes americanas, repercutindo, no posicionamento a ser adotado por cortes sediadas em outros países, incluindo o Brasil. Resta saber se, assim como no caso do Google Books, o argumento será acatado pelo Judiciário.
[1] The potential market for, or value of, a copyrighted work is not affected by use of the work to train an AI model. If a person has legal access to a copyrighted work, the value of the work is not diminished if the person analyzes and learns from the work. This is the case whether the work is read directly, or if it is analyzed using tools in the course of training an AI model. Any suggestion that this impacts the value of the work would extend the copyright owner’s exclusive rights in ways that control the non-expressive, unprotected elements. Disponível em: https://www.regulations.gov/comment/COLC-2023-0006-8750
[2] “AI training is a computational process of deconstructing existing works for the purpose of modeling mathematically how language works. By taking existing works apart, the algorithm develops a capacity to infer how new ones should be put together. This deconstructive, computational use of creative works in model training is fundamentally different from the communicative, aesthetic purpose for which those works were created”. Disponível em: https://www.regulations.gov/comment/COLC-2023-0006-9003