Descobre o poder da ativação Leaky ReLU para IA e ML. Resolve o problema do ReLU moribundo e aumenta o desempenho do modelo em CV, NLP, GANs e muito mais!
A Leaky Rectified Linear Unit, normalmente conhecida como Leaky ReLU, é uma função de ativação utilizada em Redes Neuronais (NN), particularmente em modelos de Aprendizagem Profunda (DL). É uma versão modificada da função de ativação padrão da Unidade Linear Retificada (ReLU), projetada especificamente para resolver o problema da "ReLU moribunda". Este problema ocorre quando os neurónios ficam inactivos e produzem zero para qualquer entrada, impedindo-os efetivamente de aprender durante o processo de formação devido a gradientes zero durante a retropropagação.
Tal como a ReLU, a Leaky ReLU produz a entrada diretamente se esta for positiva. No entanto, ao contrário da ReLU, que produz zero para qualquer entrada negativa, a Leaky ReLU permite um gradiente (inclinação) pequeno, diferente de zero e constante para entradas negativas. Esse "vazamento" garante que os neurônios permaneçam ativos mesmo quando sua entrada é negativa, permitindo que os gradientes fluam para trás através da rede e possibilitando o aprendizado contínuo. A pequena inclinação é normalmente um valor fixo pequeno (por exemplo, 0,01), mas variações como a ReLU paramétrica (PReLU) permitem que essa inclinação seja aprendida durante o treinamento.
A principal motivação por trás do Leaky ReLU é mitigar o problema do ReLU moribundo. Quando um neurônio ReLU padrão recebe uma grande entrada negativa, sua saída torna-se zero. Se o gradiente que flui de volta durante o treinamento também for zero, os pesos do neurônio não serão atualizados e ele pode permanecer permanentemente inativo para todas as entradas. O Leaky ReLU evita isso garantindo que um gradiente pequeno e diferente de zero sempre exista, mesmo para entradas negativas, evitando assim que os neurônios morram completamente e melhorando a robustez do processo de treinamento, especialmente em redes muito profundas, onde o problema do gradiente de desaparecimento também pode ser uma preocupação.
O Leaky ReLU é uma ferramenta valiosa em cenários em que é fundamental manter os neurónios activos durante o treino. A sua eficiência computacional, semelhante à do ReLU padrão, torna-o adequado para modelos de grande escala. As principais aplicações incluem:
Em comparação com a ReLU padrão, a principal vantagem da Leaky ReLU é evitar o problema do neurónio moribundo. Outras funções de ativação, como ELU (Exponential Linear Unit) ou SiLU (Sigmoid Linear Unit), também abordam esse problema, às vezes oferecendo benefícios como gradientes mais suaves, como visto em modelos como Ultralytics YOLOv8. No entanto, estas alternativas, como a ELU, podem ser computacionalmente mais dispendiosas do que a Leaky ReLU(ver comparações de funções de ativação). A escolha ideal depende frequentemente da arquitetura específica da rede neural, do conjunto de dados (como os encontrados nos Ultralytics Datasets) e dos resultados empíricos obtidos através de processos como a afinação de hiperparâmetros. Estruturas como PyTorchPyTorch Docs) e TensorFlowTensorFlow Docs) fornecem implementações fáceis para várias funções de ativação, facilitando a experimentação em plataformas como o Ultralytics HUB.