Glosario

Normalización por lotes

¡Aumenta el rendimiento del aprendizaje profundo con la normalización por lotes! Aprende cómo esta técnica mejora la velocidad de entrenamiento, la estabilidad y la precisión de los modelos de IA.

La normalización por lotes es una técnica muy utilizada en el aprendizaje profundo para estabilizar el proceso de aprendizaje y acelerar significativamente el entrenamiento de las redes neuronales profundas. Introducida por Sergey Ioffe y Christian Szegedy en su artículo de 2015"Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift", aborda el problema de que la distribución de las entradas a las capas profundas de la red cambia durante el entrenamiento, lo que se conoce como desplazamiento interno de covariables. Al normalizar las entradas de cada capa para cada minilote, la Normalización por Lotes ayuda a mantener una distribución más estable de los valores de activación, lo que conduce a una convergencia más suave y rápida.

Cómo funciona la normalización por lotes

Durante el entrenamiento, la Normalización por lotes normaliza las entradas a una capa para cada minilote. Esto implica calcular la media y la varianza de las activaciones en todo el mini lote y, a continuación, normalizar estas activaciones. Lo más importante es que la técnica también introduce dos parámetros aprendibles por canal de activación: un parámetro de escala (gamma) y un parámetro de desplazamiento (beta). Estos parámetros permiten a la red aprender la escala y la media óptimas de las entradas normalizadas, dándole esencialmente la flexibilidad de deshacer la normalización si ello resulta beneficioso para el aprendizaje. Este proceso ayuda a combatir problemas como los gradientes evanescentes y los gradientes explosivos, manteniendo las activaciones dentro de un rango razonable. Durante la inferencia, la media y la varianza se fijan, normalmente utilizando estadísticas poblacionales estimadas durante el entrenamiento.

Ventajas de utilizar la normalización por lotes

Aplicar la Normalización por Lotes en redes neuronales ofrece varias ventajas clave:

Entrenamiento más rápido: A menudo permite tasas de aprendizaje significativamente más altas, lo que acelera la convergencia del proceso de entrenamiento. Consulta Consejos para el entrenamiento de modelos para conocer más estrategias de optimización.
Flujo de gradiente mejorado: al estabilizar las distribuciones de activación, mitiga los problemas de gradientes evanescentes y explosivos, lo que conduce a un entrenamiento más estable, especialmente en redes muy profundas.
Efecto de regularización: la Normalización por Lotes añade un ligero componente de ruido a las entradas de las capas debido a las estadísticas de los minilotes. Esto actúa como una forma de regularización, reduciendo potencialmente la necesidad de otras técnicas como el Dropout.
Menor sensibilidad a la inicialización: Las redes con Normalización por Lotes suelen ser menos sensibles a los pesos iniciales elegidos antes de comenzar el entrenamiento.
Permite redes más profundas: Al abordar los problemas relacionados con el entrenamiento de arquitecturas profundas, facilita el entrenamiento satisfactorio de modelos mucho más profundos.

Aplicaciones y ejemplos

La normalización por lotes es un componente básico en muchos modelos de aprendizaje profundo de última generación, sobre todo en visión por ordenador.

Reconocimiento de imágenes y detección de objetos: En las Redes Neuronales Convolucionales (CNN), la Normalización por Lotes se aplica normalmente después de las capas convolucionales y antes de la función de activación (como ReLU). Modelos como ResNet dependen en gran medida de ella. En los modelos de detección de objetos, como Ultralytics YOLOla Normalización por Lotes ayuda a estabilizar el entrenamiento, mejorar la precisión y acelerar la convergencia, permitiendo una detección eficaz en conjuntos de datos complejos como COCO. En modelos como YOLOv4 se utilizaron variaciones como la Normalización Cruzada de Mini-Lotes (CmBN) para mejorar aún más el rendimiento.
Redes Generativas Adversariales (GAN): La Normalización por Lotes se utiliza a menudo en las redes generadoras y discriminadoras de las GAN para estabilizar el proceso de entrenamiento adversarial, aunque es necesaria una implementación cuidadosa para evitar artefactos. Ayuda a evitar el colapso de los modos y garantiza una dinámica de entrenamiento más suave.

Conceptos relacionados y variaciones

Aunque la Normalización por Lotes se utiliza mucho, existen varias técnicas de normalización relacionadas, cada una adecuada para distintos escenarios:

Normalización de Capas: Normaliza las entradas a través de las características para una sola muestra de datos, independientemente del lote. Suele ser preferible en Redes Neuronales Recurrentes (RNN) y Transformadores, donde las longitudes de secuencia pueden variar. Consulta el artículo original"Normalización de Capas".
Normalización de Instancias: Normaliza cada canal a través de las dimensiones espaciales para cada muestra de datos independientemente. Se suele utilizar en tareas de transferencia de estilos(Transferencia Neural de Estilos) para eliminar la información de contraste específica de cada instancia. Consulta el artículo"Normalización de instancias: El ingrediente que falta para una estilización rápida".
Normalización de Grupos: Divide los canales en grupos y normaliza dentro de cada grupo para una sola muestra de datos. Actúa como un compromiso entre la Normalización por Capas y la Normalización por Instancias, y funciona bien incluso con tamaños de lote pequeños. Consulta el artículo"Normalización de grupos".

Consideraciones y puesta en práctica

Una consideración clave para la Normalización por Lotes es su dependencia del tamaño del minilote durante el entrenamiento. El rendimiento puede degradarse si el tamaño del lote es demasiado pequeño (por ejemplo, 1 ó 2), ya que las estadísticas del lote se convierten en estimaciones ruidosas de las estadísticas de la población. Además, el comportamiento difiere entre el entrenamiento (utilizando estadísticas por lotes) y la inferencia (utilizando estadísticas poblacionales estimadas). Los marcos estándar de aprendizaje profundo como PyTorch (torch.nn.BatchNorm2d) y TensorFlow (tf.keras.layers.BatchNormalization) proporcionan implementaciones robustas. A pesar de las alternativas, la Normalización por Lotes sigue siendo una técnica fundamental para entrenar eficazmente muchos modelos modernos de aprendizaje profundo.

Normalización por lotes

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona la normalización por lotes

Ventajas de utilizar la normalización por lotes

Aplicaciones y ejemplos

Conceptos relacionados y variaciones

Consideraciones y puesta en práctica

Leer más blogs

Únete a la comunidad Ultralytics

Normalización por lotes

Entrena los modelos YOLO simplementecon Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona la normalización por lotes

Ventajas de utilizar la normalización por lotes

Aplicaciones y ejemplos

Conceptos relacionados y variaciones

Consideraciones y puesta en práctica

Leer más blogs

Únete a la comunidad Ultralytics

Entrena los modelos YOLO simplemente
con Ultralytics HUB