Glossário

Ataques adversários

Descobre o impacto dos ataques adversários nos sistemas de IA, os seus tipos, exemplos do mundo real e estratégias de defesa para melhorar a segurança da IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os ataques adversários são uma preocupação significativa no domínio da inteligência artificial (IA) e da aprendizagem automática (AM), representando tentativas deliberadas de enganar ou induzir em erro os sistemas de IA. Estes ataques envolvem a criação de entradas específicas, muitas vezes referidas como exemplos adversários, que podem levar um modelo bem treinado a fazer previsões ou classificações incorrectas. Embora estes exemplos adversários possam parecer normais ou apenas ligeiramente modificados para os observadores humanos, são concebidos para explorar vulnerabilidades no processo de tomada de decisão do modelo. Compreender e defender-se contra estes ataques é crucial para a implementação de sistemas de IA robustos e fiáveis, especialmente em aplicações críticas para a segurança, como veículos autónomos, cuidados de saúde e sistemas de segurança.

Tipos de ataques adversários

Os ataques adversários podem ser classificados em duas categorias principais:

  • Ataques de evasão: Estes são os tipos mais comuns de ataques adversários. Ocorrem durante a fase de teste, em que um atacante tenta manipular os dados de entrada para evitar a deteção ou ser mal classificado pelo modelo. Por exemplo, adicionar ruído específico a uma imagem pode fazer com que um modelo de deteção de objectos falhe na identificação de um objeto.
  • Ataques de envenenamento: Estes ataques ocorrem durante a fase de treino. Os atacantes injectam dados maliciosos no conjunto de dados de treino, com o objetivo de comprometer a integridade do modelo. O objetivo é fazer com que o modelo tenha um desempenho fraco em entradas específicas ou criar uma porta traseira que possa ser explorada mais tarde.

Exemplos reais de ataques adversários

Os ataques adversários não são apenas conceitos teóricos; têm implicações práticas em vários cenários do mundo real. Eis alguns exemplos:

  • Veículos autónomos: No contexto dos veículos autónomos, os ataques adversários podem ter consequências graves. Os investigadores demonstraram que, ao colocarem pequenos autocolantes nos sinais de stop, podem enganar o sistema de deteção de objectos do veículo, levando-o a classificar erradamente o sinal como um sinal de limite de velocidade. Isto pode levar a situações perigosas na estrada. Sabe mais sobre a IA nos automóveis autónomos.
  • Sistemas de reconhecimento facial: Os ataques adversários podem também visar os sistemas de reconhecimento facial utilizados na segurança e vigilância. Usando óculos especialmente concebidos ou aplicando padrões de maquilhagem específicos, as pessoas podem escapar à deteção ou ser mal identificadas por estes sistemas. Isto representa uma ameaça significativa para a segurança e a privacidade.

Técnicas utilizadas em ataques adversários

São utilizadas várias técnicas para gerar exemplos contraditórios. Algumas das mais proeminentes incluem:

  • Método do sinal de gradiente rápido (FGSM): Este é um dos métodos de ataque mais antigos e mais populares. Envolve o cálculo do gradiente da função de perda em relação à imagem de entrada e, em seguida, adiciona perturbações na direção do gradiente para maximizar a perda. Sabe mais sobre a descida do gradiente.
  • Descida do gradiente projetado (PGD): Uma versão iterativa do FGSM, o PGD aplica vários pequenos passos de subida de gradiente enquanto projecta o resultado de volta para o espaço de entrada válido. Este método resulta frequentemente em ataques mais potentes.
  • Ataques Carlini & Wagner (C&W): Estes ataques são baseados na otimização e têm como objetivo encontrar a perturbação mínima que causa a classificação incorrecta. São conhecidos por serem altamente eficazes mas computacionalmente dispendiosos.

Defesas contra ataques adversários

Os investigadores e os profissionais desenvolveram várias estratégias para se defenderem contra ataques adversários. Alguns mecanismos de defesa notáveis são:

  • Treino contraditório: Aumenta o conjunto de dados de treino com exemplos adversários. Ao treinar o modelo em entradas limpas e adversárias, aprende a ser mais robusto contra esses ataques. Sabe mais sobre dados de treino.
  • Destilação defensiva: Esta técnica envolve o treino de um modelo para prever as probabilidades suavizadas produzidas por outro modelo treinado em dados limpos. O seu objetivo é tornar o modelo menos sensível a pequenas perturbações.
  • Pré-processamento de entrada: A aplicação de transformações aos dados de entrada, como compressão, redução de ruído ou aleatorização, pode ajudar a atenuar os efeitos das perturbações adversárias. Sabe mais sobre o pré-processamento de dados.
  • Mascaramento de gradiente: Esta abordagem tem como objetivo esconder os gradientes do modelo do atacante, tornando mais difícil a criação de exemplos adversários. No entanto, este método tem-se revelado menos eficaz contra ataques mais sofisticados.

Ataques Adversários vs. Outras Ameaças à Segurança da IA

Embora os ataques adversários sejam uma preocupação significativa, é essencial distingui-los de outras ameaças à segurança da IA:

  • Envenenamento de dados: Como mencionado anteriormente, o envenenamento de dados é um tipo de ataque adversário que ocorre durante a fase de treinamento. Outras ameaças à segurança, como violações de dados ou acesso não autorizado, podem não envolver manipulação adversária, mas ainda assim comprometem a integridade do sistema.
  • Inversão do modelo: Este ataque visa reconstruir dados sensíveis a partir do conjunto de treino, consultando o modelo. Embora não envolva exemplos adversários, representa um risco para a privacidade, especialmente quando se trata de dados sensíveis como registos médicos. Sabe mais sobre a análise de imagens médicas.
  • Ataques Backdoor: Esses ataques envolvem a inserção de um gatilho oculto no modelo durante o treinamento, fazendo com que ele se comporte de forma maliciosa quando o gatilho estiver presente. Embora relacionados com os ataques de envenenamento, os ataques backdoor têm um objetivo específico de criar uma vulnerabilidade oculta.

Futuro dos ataques e defesas adversários

O domínio dos ataques adversários está em constante evolução, com investigação contínua sobre métodos de ataque mais sofisticados e mecanismos de defesa robustos. Como os sistemas de IA estão cada vez mais integrados em aplicações críticas, garantir a sua segurança contra ataques adversários será de extrema importância.

As futuras direcções de investigação incluem o desenvolvimento de defesas mais generalizáveis, a compreensão dos limites fundamentais da robustez e a criação de modelos adaptativos que possam ajustar-se dinamicamente a novos tipos de ataques. Além disso, a exploração da interação entre a IA explicável (XAI) e a robustez adversária pode conduzir a sistemas de IA mais transparentes e seguros. Sabe mais sobre a ética da IA.

Para mais leituras sobre ataques adversários, considera explorar estes recursos:

Ao manterem-se informados sobre os últimos desenvolvimentos em matéria de ataques adversários e defesas, os profissionais podem contribuir para a criação de sistemas de IA mais seguros e fiáveis Ultralytics YOLO .

Lê tudo