Glossário

ReLU com fugas

Descubra o poder da ativação Leaky ReLU para IA e ML. Resolva o problema do ReLU moribundo e aumente o desempenho do modelo em CV, NLP, GANs e muito mais!

A Leaky Rectified Linear Unit, ou Leaky ReLU, é uma função de ativação utilizada em redes neuronais (NN) e é uma melhoria direta da função standard Rectified Linear Unit (ReLU). Foi concebida para resolver o problema da "ReLU moribunda", em que os neurónios podem ficar inactivos e deixar de aprender durante o treino. Ao introduzir uma pequena inclinação diferente de zero para valores de entrada negativos, a Leaky ReLU garante que os neurónios têm sempre um gradiente, o que permite uma formação mais estável e consistente em modelos de aprendizagem profunda (DL). Esta modificação simples provou ser eficaz em várias arquitecturas, ajudando a melhorar o desempenho do modelo e a dinâmica de formação.

Como é que o ReLU com fugas resolve o problema dos neurónios moribundos

A principal motivação por trás do Leaky ReLU é resolver o problema do neurónio moribundo. Em uma função ReLU padrão, qualquer entrada negativa para um neurônio resulta em uma saída de zero. Se um neurónio recebe constantemente uma entrada negativa, a sua saída será sempre zero. Conseqüentemente, o gradiente que passa por esse neurônio durante a retropropagação também será zero. Isso significa que os pesos do neurônio não são mais atualizados e ele efetivamente pára de participar do processo de aprendizagem - ele "morre".

O Leaky ReLU resolve este problema permitindo um gradiente pequeno e positivo quando a unidade não está ativa. Em vez de emitir zero para entradas negativas, ele emite um valor multiplicado por uma pequena constante (a "fuga"). Isto garante que o neurónio nunca tem um gradiente zero, permitindo-lhe recuperar e continuar a aprender. Esta abordagem foi detalhada pela primeira vez no artigo sobre Avaliação empírica de activações rectificadas em redes convolucionais.

Aplicações no mundo real

A capacidade do Leaky ReLU para promover uma formação mais estável tornou-o valioso em vários domínios da inteligência artificial (IA).

  • Redes Adversariais Generativas (GANs): A ReLU com fugas é frequentemente utilizada nas redes discriminadoras das Redes Adversariais Generativas (GANs). As GANs envolvem um equilíbrio delicado entre um gerador e um discriminador, e o desaparecimento de gradientes da ReLU padrão pode desestabilizar esse treinamento. Conforme explicado em recursos como o blogue de programadores da Google sobre GANs, os gradientes consistentes e não nulos da ReLU com fugas ajudam ambas as redes a aprender de forma mais eficaz, conduzindo à geração de dados sintéticos de maior qualidade.
  • Modelos de deteção de objectos: Os primeiros mas influentes modelos de deteção de objectos, incluindo algumas versões do YOLO, utilizaram o Leaky ReLU. Nas redes neurais convolucionais profundas (CNNs), os neurónios que morrem podem impedir o modelo de aprender caraterísticas cruciais. O Leaky ReLU ajuda a garantir que todos os neurónios permanecem activos, melhorando a capacidade do modelo para detetar objectos em diversos conjuntos de dados como o COCO. Embora muitas arquitecturas modernas, como a Ultralytics YOLO11, utilizem agora funções mais avançadas, o Leaky ReLU foi um componente essencial para estabelecer as suas bases.

ReLU com fugas vs. outras funções de ativação

A Leaky ReLU é uma das várias funções de ativação concebidas para melhorar a ReLU original. Compreender a sua relação com as outras ajuda a selecionar a função certa para uma determinada tarefa.

  • ReLU: A principal diferença é que o ReLU é completamente inativo para entradas negativas, enquanto o Leaky ReLU mantém um gradiente pequeno e constante.
  • SiLU e GELU: As funções de ativação mais recentes, como SiLU (Sigmoid Linear Unit) e GELU (Gaussian Error Linear Unit), fornecem curvas suaves e não monotónicas que podem, por vezes, conduzir a uma melhor precisão. Estas são frequentemente encontradas em modelos avançados como os Transformers. No entanto, são computacionalmente mais complexas do que a operação linear simples da Leaky ReLU. Uma visão geral detalhada das funções de ativação pode fornecer mais comparações.
  • ReLU paramétrico (PReLU): O PReLU é uma variante em que o coeficiente de fuga é aprendido durante o treino, tornando-o um parâmetro do modelo em vez de um hiperparâmetro fixo.

A escolha ideal da função de ativação depende frequentemente da arquitetura específica, do conjunto de dados (como os disponíveis no Ultralytics Datasets) e dos resultados da afinação de hiperparâmetros. O Leaky ReLU continua a ser uma escolha forte pela sua simplicidade, baixo custo computacional e eficácia na prevenção da morte de neurónios.

As principais estruturas de aprendizagem profunda, como o PyTorch e o TensorFlow, fornecem implementações diretas, como se pode ver na sua documentação oficial para o LeakyReLU do PyTorch e o LeakyReLU do TensorFlow. Essa acessibilidade permite que os desenvolvedores experimentem e integrem facilmente em seus modelos usando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência