Glossário

Função de ativação

Descobre o papel das funções de ativação nas redes neuronais, os seus tipos e aplicações reais em IA e aprendizagem automática.

As funções de ativação são componentes fundamentais das redes neuronais (NN), desempenhando um papel crucial para permitir que estas redes aprendam padrões complexos e façam previsões sofisticadas. Inspirada na forma como os neurónios biológicos disparam, uma função de ativação decide se um neurónio deve ser ativado ou não, calculando uma soma ponderada das suas entradas e adicionando um viés. O seu principal objetivo é introduzir a não linearidade na saída de um neurónio, o que é essencial para que os modelos de Aprendizagem Profunda (DL) lidem com tarefas complexas para além das simples relações lineares. Sem funções de ativação não lineares, uma rede neural profunda comportar-se-ia como um modelo linear de camada única, limitando severamente as suas capacidades de aprendizagem.

Porque é que a não linearidade é importante

Os dados do mundo real, como imagens, texto e som, são intrinsecamente complexos e não lineares. Um modelo composto apenas por transformações lineares não consegue captar eficazmente estas relações intrincadas. As funções de ativação introduzem a não-linearidade necessária, permitindo que as redes neuronais aproximem funções arbitrariamente complexas. Esta capacidade é a pedra angular da Inteligência Artificial (IA) moderna, permitindo avanços em domínios como a Visão por Computador (CV) e o Processamento de Linguagem Natural (PNL). O processo de aprendizagem envolve o ajuste dos pesos da rede através de métodos como a retropropagação e a descida do gradiente, que se baseiam nas propriedades introduzidas por estas funções.

Tipos comuns de funções de ativação

Existem várias funções de ativação, cada uma com caraterísticas distintas adequadas a diferentes cenários. Alguns tipos comuns incluem:

Sigmoide: Esta função comprime os valores de entrada num intervalo entre 0 e 1. Foi historicamente popular, mas é menos utilizada em camadas ocultas atualmente devido a questões como o problema do gradiente de desaparecimento, que pode abrandar ou interromper a aprendizagem. Vê a definição matemática na Wikipedia.
Tanh (Tangente hiperbólica): Semelhante à Sigmoide, mas produz valores entre -1 e 1. Por ser centrada no zero, muitas vezes ajuda na aprendizagem em comparação com a Sigmoide, mas ainda sofre com o problema do gradiente que desaparece. Explora suas propriedades no Wolfram MathWorld.
ReLU (Unidade Linear Retificada): Emite a entrada diretamente se for positiva, e zero caso contrário. É computacionalmente eficiente e amplamente utilizado em Redes Neurais Convolucionais (CNNs). No entanto, pode sofrer do problema da "ReLU moribunda", em que os neurónios ficam inactivos. Lê o artigo original sobre o ReLU.
ReLU com vazamento: Uma variante do ReLU que permite um gradiente pequeno, diferente de zero, quando a entrada é negativa, abordando o problema do ReLU moribundo. Mais detalhes disponíveis em Papers With Code.
SiLU (Sigmoid Linear Unit) / Swish: Uma função de ativação auto-girada que muitas vezes tem um desempenho melhor do que a ReLU. É usada em várias arquiteturas modernas, incluindo algumas Ultralytics YOLO do Ultralytics. Vê o artigo de investigação SiLU e a sua implementação em PyTorch.
GELU (Unidade Linear de Erro Gaussiano): Comumente usado em modelos de Transformadores, o GELU pondera as entradas pela sua magnitude em vez de apenas pelo seu sinal. Os detalhes podem ser encontrados no documento GELU.
Softmax: Normalmente, é usado na camada de saída de uma rede para tarefas de classificação multiclasse. Converte um vetor de pontuações brutas em uma distribuição de probabilidade, em que cada valor está entre 0 e 1, e todos os valores somam 1. Saiba mais sobre a função Softmax na Wikipedia.

Escolher a função de ativação correta

A escolha da função de ativação depende de factores como o tipo de problema (por exemplo, classificação, regressão), a camada específica (oculta vs. saída), a arquitetura da rede e as caraterísticas de desempenho desejadas, como a precisão e a velocidade de inferência. A ReLU e suas variantes (Leaky ReLU, SiLU) são escolhas comuns para camadas ocultas em CNNs devido à sua eficiência e capacidade de atenuar gradientes que desaparecem. Sigmoid e Tanh são frequentemente usados em Redes Neurais Recorrentes (RNNs), enquanto Softmax é padrão para resultados de classificação multi-classe. A experimentação e técnicas como o ajuste de hiperparâmetros são frequentemente necessárias para encontrar as funções de ativação ideais para um modelo e conjunto de dados específicos. Podes explorar várias dicas de treino de modelos para obteres orientação.

Aplicações no mundo real

As funções de ativação são fundamentais em várias aplicações de IA:

Deteção de objectos: Em modelos como YOLO11as funções de ativação, como SiLU ou ReLU, são utilizadas nas camadas convolucionais da espinha dorsal para extrair caraterísticas das imagens (por exemplo, arestas, texturas, formas). Na cabeça de deteção, as funções de ativação ajudam a prever as probabilidades de classe e a refinar as coordenadas das caixas delimitadoras em torno dos objectos detectados. Esta tecnologia é vital em áreas como os veículos autónomos para identificar peões e outros carros, e em sistemas de segurança para vigilância.
Reconhecimento de fala: Nos sistemas que convertem a linguagem falada em texto, muitas vezes empregando RNNs ou Transformers, são utilizadas funções de ativação como Tanh ou GELU nas camadas da rede. Estas funções ajudam o modelo a captar dependências e padrões temporais no sinal de áudio, permitindo uma transcrição precisa. Isto permite aplicações como assistentes virtuais (por exemplo, Siri, Alexa) e software de ditado. Descobre mais sobre o reconhecimento de voz nas principais instituições de investigação.

Comparação com termos relacionados

É importante distinguir as funções de ativação de outros conceitos nas redes neuronais:

Funções de perda: Uma função de perda quantifica a diferença entre as previsões do modelo e os valores-alvo reais (o "erro"). O seu objetivo é orientar o processo de formação, fornecendo uma medida do desempenho do modelo. Enquanto as funções de ativação determinam a saída de um neurónio durante a passagem para a frente, as funções de perda avaliam a saída global do modelo no final da passagem para calcular o erro utilizado para atualizar os pesos durante a retropropagação.
Algoritmos de otimização: Esses algoritmos (por exemplo, Adam Optimizer, Stochastic Gradient Descent (SGD)) definem como os pesos do modelo são atualizados com base na perda calculada. Utiliza os gradientes derivados da função de perda para ajustar os parâmetros e minimizar o erro. As funções de ativação influenciam o cálculo desses gradientes, mas não são o método de otimização em si. Vê uma visão geral dos algoritmos de otimização.
Técnicas de normalização: Métodos como a Normalização em lote visam estabilizar e acelerar o processo de treinamento, normalizando as entradas de uma camada (dimensionando-as para que tenham média zero e variância unitária). A normalização ocorre antes de a função de ativação ser aplicada às entradas da camada transformada, ajudando a manter uma distribuição de dados consistente em toda a rede. Lê o documento Normalização em lote para obter detalhes.

Compreender as funções de ativação é essencial para conceber, treinar e otimizar modelos eficazes de aprendizagem automática (ML) em vários domínios. A escolha certa pode ter um impacto significativo no desempenho do modelo e na dinâmica do treino. Podes explorar diferentes modelos e os seus componentes utilizando ferramentas como o Ultralytics HUB, que facilita a criação, o treino e a implementação de modelos de IA.

Função de ativação

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Porque é que a não linearidade é importante

Tipos comuns de funções de ativação

Escolher a função de ativação correta

Aplicações no mundo real

Comparação com termos relacionados

Lê mais blogues

Junta-te à comunidade Ultralytics

Função de ativação

Treina os modelos YOLO simplesmentecom Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Porque é que a não linearidade é importante

Tipos comuns de funções de ativação

Escolher a função de ativação correta

Aplicações no mundo real

Comparação com termos relacionados

Lê mais blogues

Junta-te à comunidade Ultralytics

Treina os modelos YOLO simplesmente
com Ultralytics HUB