Glosario

Convolución

Aprende cómo la convolución potencia la IA en la visión por ordenador, permitiendo tareas como la detección de objetos, el reconocimiento de imágenes y la obtención de imágenes médicas con precisión.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La convolución es una operación fundamental en muchas aplicaciones de visión por ordenador y es un componente clave de las Redes Neuronales Convolucionales (CNN). Consiste en aplicar un filtro, también conocido como núcleo, a una entrada, como una imagen, para extraer características específicas. Este proceso crea un mapa de características que destaca la presencia de esas características en la entrada original. La convolución ayuda a los modelos a identificar patrones como bordes, texturas y formas, que son esenciales para tareas como la detección de objetos, el reconocimiento de imágenes y el análisis de imágenes médicas.

Cómo funciona la convolución

El proceso de convolución consiste en deslizar un filtro sobre los datos de entrada. En cada posición, el filtro realiza una multiplicación por elementos con la sección correspondiente de la entrada. Los resultados de estas multiplicaciones se suman para producir un valor único en el mapa de características de salida. Al repetir este proceso en toda la entrada, se crea una nueva representación que enfatiza características específicas basadas en el diseño del filtro. Por ejemplo, un filtro diseñado para detectar bordes verticales producirá un mapa de características en el que se resaltarán los bordes verticales. Los filtros pueden diseñarse para detectar una gran variedad de características, desde aristas simples a patrones complejos.

Componentes clave de la convolución

Varios componentes clave definen la operación de convolución:

  • Filtro (Kernel): Una pequeña matriz utilizada para extraer características de los datos de entrada. Cada filtro está diseñado para detectar un tipo específico de característica.
  • Mapa de características: La salida de la operación de convolución, que destaca la presencia de características detectadas por el filtro. Los mapas de características son esenciales para las tareas posteriores de la red neuronal.
  • Paso: El número de píxeles que el filtro mueve en cada paso. Una zancada mayor da como resultado un mapa de características más pequeño.
  • Relleno: Añadir píxeles adicionales alrededor de la entrada para controlar el tamaño del mapa de características. El relleno garantiza que el filtro pueda aplicarse a los bordes de la entrada sin reducir el tamaño de la salida.

Aplicaciones de la convolución

La convolución se utiliza ampliamente en diversas aplicaciones de IA y aprendizaje automático, especialmente en visión por ordenador. He aquí dos ejemplos notables:

1. Detección de objetos

En la detección de objetos, la convolución ayuda a identificar y localizar objetos dentro de una imagen. Los modelos como Ultralytics YOLO utilizan capas convolucionales para extraer características jerárquicas de las imágenes. A continuación, estas características se utilizan para detectar varios objetos y determinar su ubicación mediante cuadros delimitadores. Por ejemplo, en los coches autoconducidos, la convolución permite detectar peatones, señales de tráfico y otros vehículos, lo que es crucial para una navegación segura. Puedes obtener más información sobre el papel de la IA de Visión en la tecnología de autoconducción.

2. Imagen médica

La convolución desempeña un papel fundamental en el análisis de imágenes médicas, como radiografías y resonancias magnéticas. Aplicando capas convolucionales, los modelos de IA pueden detectar anomalías como tumores o fracturas con gran precisión. Estas técnicas se utilizan en el análisis de imágenes médicas para ayudar a los radiólogos a diagnosticar enfermedades con mayor rapidez y precisión.

Convolución frente a conceptos relacionados

A menudo se habla de la convolución junto con conceptos relacionados, como la agrupación y la extracción de características. Mientras que la convolución extrae características aplicando filtros, la agrupación reduce la dimensionalidad de los mapas de características mediante un muestreo descendente, normalmente tomando el valor máximo o medio de una región. La extracción de características es un término más amplio que engloba tanto la convolución como la agrupación, junto con otras técnicas para obtener información significativa de los datos brutos.

Beneficios en el mundo real

La convolución se ha vuelto indispensable en las aplicaciones modernas de IA debido a su eficacia y flexibilidad. Plataformas como Ultralytics HUB permiten a los usuarios entrenar y desplegar modelos que aprovechan la convolución para tareas como el reconocimiento de objetos en tiempo real y la videovigilancia. Además, las optimizaciones como el uso de GPU permiten un procesamiento más rápido y escalabilidad para grandes conjuntos de datos, haciendo que la convolución sea práctica para aplicaciones del mundo real.

Leer todo