Destruição algorítmica e as sanções previstas na LGPD

  • Categoria do post:JOTA

Na área do direito digital, o mês de julho foi marcado pela medida cautelar preventiva aplicada à Meta pela Autoridade Nacional de Proteção de Dados (ANPD)[1]. A decisão determinou a imediata suspensão do tratamento de dados pessoais para o treinamento dos sistemas de inteligência artificial generativa da Meta no Brasil, e da política de privacidade que havia sido alterada em junho.

A medida, até então inédita, foi justificada em dois pontos principais. O primeiro ponto seriam violações de direitos com potencial de gerar danos de difícil reparação ou irreparáveis aos titulares de dados. O segundo, seriam algumas inconformidades com a Lei Geral de Proteção de Dados (LGPD), especialmente em relação ao uso do legítimo interesse como hipótese autorizadora do tratamento, que não seria adequada posto que a atividade envolveria dados sensíveis, e as medidas de transparência que não teriam sido suficientes.

Além dos indícios de inconformidade, chama atenção uma passagem tímida da decisão, onde a ANPD menciona a possibilidade de que dados pessoais já tenham sido utilizados pela Meta, para o treinamento de seus sistemas de IA, em desconformidade com a LGPD. Destaca ainda que eventual continuidade do tratamento desses dados poderia gerar uma situação de fato consumado, de difícil reversão, uma vez que a operação técnica de excluir determinados dados pessoais eventualmente utilizados para treinar os sistemas de IA pode ser complexa.

Isto porque, os dados usados para treinar sistemas de IA têm um impacto significativo nos resultados destes mecanismos e mesmo que sejam excluídos posteriormente, o aprendizado adquirido a partir deles é preservado.

Esse fenômeno é conhecido como sombra algorítmica ou algorithmic shadow, que é a permanência do resultado obtido com o processamento de dados pelo algoritmo de machine learning, mesmo quando a base de dados utilizada tenha sido excluída[2]. A irreversibilidade desse processo pode ser ilustrada pela analogia de um bolo: uma vez que os ingredientes são combinados e assados, é impossível separá-los novamente[3].

Portanto, qual seria a solução para os casos em que dados pessoais tenham sido tratados indevidamente no treinamento de sistemas de IA, uma vez que é impossível ‘destreinar’ os sistemas em relação a estes dados?

Uma solução que vêm sendo utilizada pela Federal Trade Comission (FTC) nos Estados Unidos é a chamada destruição algorítmica, também conhecida como algorithmic disgorgement, machine unlearning ou model deletion.

Simplificadamente, esse mecanismo exige que as empresas excluam não apenas os dados coletados de forma irregular, mas também os modelos de inteligência artificial ou os algoritmos desenvolvidos a partir da utilização desses dados. A FTC argumenta que não seria apropriado que as empresas se beneficiassem dos resultados obtidos com dados coletados de forma inadequada.

A primeira vez que a FTC utilizou esse instrumento foi em 2019, no caso envolvendo a Cambridge Analytica, onde dados de 87 milhões de usuários foram coletados indevidamente de seus perfis do Facebook e utilizados para aprimorar a precisão do algoritmo da empresa de marketing político.

Nesse caso, a FTC entendeu que mesmo que todos esses perfis fossem excluídos, o algoritmo da Cambridge Analytica ainda manteria o aprendizado obtido, incluindo o refinamento e a precisão alcançados.  A partir disso, a FTC ordenou que quaisquer algoritmos ou equações, que se originaram, no todo ou em parte, de dados que foram coletados ilegalmente, fossem excluídos[4].

Em janeiro de 2021, a FTC reforçou o uso do mecanismo de destruição algorítmica em um acordo com a Everalbum Inc.[5], empresa de armazenamento de fotos que havia criado uma ferramenta de reconhecimento facial em seu aplicativo, ativada por padrão sem oferecer aos usuários uma opção real de desativação. Além disso, a FTC descobriu que a empresa utilizava fotos dos usuários para treinar modelos de aprendizado de máquina, combinando essas imagens com dados públicos para aprimorar sua tecnologia de reconhecimento facial.

Subsequentemente, em 2022, esse mecanismo também foi utilizado em acordo com as empresas WW International Inc. e a Kurbo Inc[6]. E, mais recentemente, em dezembro de 2023, a FTC proibiu a Rite Aid Corporation de utilizar tecnologia de reconhecimento facial para vigilância por um período de cinco anos. Além disso, determinou que a empresa excluísse todas as imagens e fotos coletadas por meio do sistema de reconhecimento facial, bem como quaisquer algoritmos ou produtos desenvolvidos utilizando essas imagens e fotos, reforçando, mais uma vez, o uso do mecanismo de destruição algorítmica.

Voltando ao cenário brasileiro, a pergunta que fica é: caso alguma empresa colete dados pessoais de forma irregular para treinar seus sistemas de IA generativa (neste caso, para simplificar a discussão, vamos considerar que seja um Large Language Model), seria possível a ANPD exigir a “destruição algorítmica” destes modelos?

Considerando o previsto no artigo 52 da LGPD, a única sanção que seria aproximada à “destruição algorítmica” é a de “eliminação dos dados pessoais a que se refere a infração”[7]. Ou seja, esta sanção direciona-se à exclusão de dados pessoais e, portanto, para que ela alcançasse a destruição do modelo treinado, seria necessário afirmar que estes modelos armazenam os dados pessoais em si.

Neste ponto, reside uma discussão técnica e complexa. Isto porque, embora os sistemas de IA generativa, como os LLMs, sejam treinados com grandes conjuntos de dados, esta base de treinamento não é armazenada de forma literal no modelo como em um banco de dados. As redes neurais aprendem a partir destes dados, ajustando os pesos das conexões entre seus neurônios.

Essas conexões formam representações abstratas e complexas da informação, codificando padrões e relações presentes nos dados de treinamento[8]. Com isso, a definição corrente de dado pessoal, como aqueles que permitam a distinção de um indivíduo dentro de um grupo de indivíduos[9], podem não alcançar estes modelos, ainda que treinados com extensa base de dados pessoais.

Nesta linha, recentemente tivemos posicionamento da autoridade de Hamburgo, na Alemanha, indicando expressamente seu entendimento de que os Large Language Models, não armazenam dados pessoais e, portanto, o GDPR não se aplica ao modelo em si (porém, se aplica aos dados de treinamentos e, eventualmente, aos resultados gerados).

Assim, seria possível argumentar que a sanção de exclusão dos dados não poderia ser utilizada para ordenar a destruição de um modelo treinado em dados pessoais coletados indevidamente.

Uma alternativa seria a sanção de “proibição parcial ou total do exercício de atividades relacionadas a tratamento de dados”, sob o argumento de que estes sistemas tratam dados pessoais durante a fase de treinamento e pode gerar outputs que contenham dados pessoais, sendo assim, atividades relacionadas ao tratamento de dados pessoais.

Porém, apesar de consequências semelhantes, em tese, a proibição impediria o agente de tratamento a retomar o funcionamento do sistema de IA, ainda que ‘retornado’ ao estado antes de ser treinado com dados coletados legitimamente, posto que a proibição seria para a atividade de tratamento como um todo, restando, portanto, excessiva.

A discussão ainda é imatura, mas aponta para uma potencial falta de instrumento sancionador adequado na LGPD para lidar com os desafios trazidos pelos Large Language Models.

Por fim, é importante esclarecer que, embora a destruição algorítmica seja uma solução adequada para abordar o problema da permanência dos resultados obtidos a partir de dados coletados de forma irregular, ela não está isenta de desafios. O principal deles é o alto custo associado à execução das ordens de destruição algorítmica, o que pode desincentivar a inovação e reduzir os investimentos em IA privando a sociedade dos benefícios que essa tecnologia oferece.

Esses aspectos destacam a necessidade de uma abordagem equilibrada que considere tanto a proteção dos direitos dos indivíduos quanto o estímulo ao desenvolvimento tecnológico[10].

[1] https://www.gov.br/anpd/pt-br/assuntos/noticias/anpd-determina-suspensao-cautelar-do-tratamento-de-dados-pessoais-para-treinamento-da-ia-da-meta/SEI_0130047_Voto_11.pdf

[2] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4066845

[3] https://iapp.org/news/a/explaining-model-disgorgement

[4] https://www.ftc.gov/system/files/documents/cases/d09389_comm_final_orderpublic.pdf

[5]https://www.ftc.gov/news-events/news/press-releases/2021/05/ftc-finalizes-settlement-photo-app-developer-related-misuse-facial-recognition-technology

[6]https://www.ftc.gov/legal-library/browse/cases-proceedings/1923228-weight-watchersww

[7] Vide artigo 52, inciso VI, da LGPD.

[8] JO, Taeho. Deep learning foundations. Cham: Springer, 2023

[9] ARTICLE 29 DATA PROTECTION WORKING PARTY. Opinion 4/2007 on the concept of personal data. p. 12.

[10] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4066845