Glossário

Privacidade diferencial

Aprende como a privacidade diferencial salvaguarda os dados sensíveis em IA/ML, garantindo a privacidade ao mesmo tempo que permite uma análise precisa e a conformidade com os regulamentos.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A privacidade diferencial é um conceito crítico no domínio da análise de dados e da aprendizagem automática (ML), especialmente quando se trata de informações sensíveis. Trata-se de um sistema para partilhar publicamente informações sobre um conjunto de dados, descrevendo os padrões de grupos dentro do conjunto de dados e ocultando informações sobre indivíduos no conjunto de dados. A ideia central é garantir que a inclusão ou exclusão de um único ponto de dados não afecta significativamente o resultado de qualquer análise. Isto significa que um observador não pode inferir com elevada confiança se os dados de um indivíduo específico foram utilizados na análise, protegendo assim a privacidade individual.

Importância da privacidade diferencial

Na era dos grandes volumes de dados e da inteligência artificial (IA), a necessidade de técnicas de preservação da privacidade nunca foi tão grande. As organizações recolhem e analisam frequentemente grandes quantidades de dados pessoais para treinar modelos de aprendizagem automática, melhorar os serviços e obter informações. No entanto, esta prática suscita grandes preocupações em termos de privacidade. A privacidade diferencial aborda essas preocupações, fornecendo uma estrutura matematicamente rigorosa para quantificar e garantir a privacidade.

Ao implementar a privacidade diferencial, as organizações podem demonstrar o seu empenho em proteger os dados dos utilizadores, cumprir os regulamentos de privacidade, como o RGPD, e criar confiança junto dos seus utilizadores. Além disso, permite o desenvolvimento de modelos de ML que podem aprender com dados sensíveis sem comprometer a privacidade individual, abrindo novas oportunidades de investigação e inovação em áreas como a saúde, as finanças e as ciências sociais.

Conceitos-chave em privacidade diferencial

A privacidade diferencial gira em torno do conceito de adicionar ruído cuidadosamente calibrado aos dados ou aos resultados de uma consulta. Este ruído é suficiente para mascarar a contribuição de qualquer ponto de dados individual, mas suficientemente pequeno para garantir que a análise global permanece exacta. A quantidade de ruído adicionada é controlada por um parâmetro designado por orçamento de privacidade, muitas vezes denotado por epsilon (ε). Um valor de epsilon mais pequeno indica uma garantia de privacidade mais forte, mas pode reduzir a utilidade dos dados.

Outro conceito importante é a sensibilidade, que mede a quantidade máxima que os dados de um único indivíduo podem afetar o resultado de uma consulta. As consultas com menor sensibilidade são mais fáceis de tornar diferentemente privadas porque é necessário menos ruído para mascarar as contribuições individuais.

Privacidade diferencial vs. outras técnicas de privacidade

Embora a privacidade diferencial seja uma ferramenta poderosa, não é a única abordagem para proteger a privacidade na análise de dados. Outras técnicas incluem a anonimização, o k-anonimato e a aprendizagem federada.

A anonimização envolve a remoção de informação pessoal identificável dos dados. No entanto, tem sido demonstrado que os dados anonimizados podem muitas vezes ser reidentificados ligando-os a outras informações publicamente disponíveis. O K-anonimato visa resolver este problema, garantindo que cada indivíduo num conjunto de dados é indistinguível de pelo menos k-1 outros indivíduos. No entanto, pode ainda ser vulnerável a certos tipos de ataques, particularmente quando se lida com dados de elevada dimensão.

A privacidade diferencial oferece uma garantia de privacidade mais forte em comparação com estes métodos, porque não se baseia em pressupostos sobre os conhecimentos de base ou o poder computacional do atacante. Oferece uma garantia formal e matemática de privacidade que se mantém mesmo que o atacante tenha acesso a informação auxiliar ou efectue múltiplas consultas ao conjunto de dados.

A aprendizagem federada, por outro lado, é uma técnica em que várias partes treinam de forma colaborativa um modelo de aprendizagem automática sem partilhar os seus dados em bruto. Cada parte treina o modelo nos seus dados locais, e apenas as actualizações do modelo são partilhadas e agregadas. Embora a aprendizagem federada ajude a manter os dados descentralizados, não fornece o mesmo nível de garantias formais de privacidade que a privacidade diferencial. No entanto, as duas técnicas podem ser combinadas para alcançar tanto a descentralização como uma forte proteção da privacidade. Podes saber mais sobre privacidade e segurança de dados nas nossas páginas de glossário.

Aplicações da privacidade diferencial em IA/ML

A privacidade diferencial tem uma vasta gama de aplicações em IA e ML, particularmente em cenários que envolvem dados sensíveis. Eis dois exemplos concretos:

  1. Investigação médica: Os investigadores necessitam frequentemente de analisar os dados dos doentes para desenvolver novos tratamentos ou compreender os padrões das doenças. No entanto, os dados médicos são altamente sensíveis e estão sujeitos a regulamentos de privacidade rigorosos. Ao aplicar técnicas de privacidade diferencial, os investigadores podem treinar modelos de ML em conjuntos de dados médicos, assegurando simultaneamente a proteção das informações individuais dos pacientes. Por exemplo, um modelo de privacidade diferencial pode ser utilizado para prever o risco de uma determinada doença com base nas caraterísticas do paciente sem revelar se um determinado paciente participou no estudo ou os seus factores de risco individuais. Sabe mais sobre a análise de imagens médicas.
  2. Sistemas de recomendação: Empresas como a Netflix e a Amazon utilizam sistemas de recomendação para sugerir produtos ou conteúdos aos utilizadores com base nas suas preferências. Estes sistemas dependem frequentemente da análise do comportamento do utilizador e dos dados pessoais. Ao incorporar a privacidade diferencial, as empresas podem criar modelos de recomendação que aprendem com as preferências dos utilizadores, garantindo que as escolhas individuais não são expostas. Por exemplo, um sistema de recomendação com privacidade diferencial pode sugerir filmes com base nos hábitos de visualização de utilizadores semelhantes sem revelar os filmes exactos vistos por um único utilizador. Explora mais os sistemas de recomendação na nossa página de glossário.

Estes são apenas dois exemplos de como a privacidade diferencial pode permitir aplicações de IA/ML que preservam a privacidade. Outros casos de utilização incluem a análise de sentimentos, o processamento de linguagem natural e a formação de modelos de IA generativos em dados de texto sensíveis. Sabe mais sobre a análise de sentimentos.

Implementar a privacidade diferencial

Existem várias ferramentas e bibliotecas disponíveis para implementar a privacidade diferencial na prática. Uma escolha popular é a bibliotecaGoogle Differential Privacy, que fornece um conjunto de algoritmos para a análise de dados diferencialmente privados. Outra opção é o OpenDP, um esforço da comunidade para construir uma plataforma de privacidade diferencial fiável e de código aberto.

Ao implementar a privacidade diferencial, é crucial escolher cuidadosamente o orçamento de privacidade (epsilon) com base no nível de privacidade desejado e nos requisitos de utilidade da análise. É também importante considerar a composição de vários mecanismos de privacidade diferencial, uma vez que as garantias de privacidade podem degradar-se quando são efectuadas várias análises sobre os mesmos dados.

Conclusão

A privacidade diferencial é uma técnica poderosa para proteger a privacidade individual, permitindo simultaneamente uma análise de dados e uma aprendizagem automática valiosas. Fornece uma garantia matemática forte de privacidade que se mantém mesmo na presença de adversários poderosos. À medida que a utilização de IA e ML continua a crescer, a privacidade diferencial desempenhará um papel cada vez mais importante para garantir que podemos aproveitar os benefícios destas tecnologias sem comprometer os direitos fundamentais de privacidade. Ao compreender e implementar a privacidade diferencial, as organizações podem criar sistemas de IA mais fiáveis e responsáveis que respeitem a privacidade do utilizador e promovam o bem da sociedade.

Lê tudo