Cheque verde
Enlace copiado en el portapapeles

Historia de los modelos de visión

Explora la historia, los logros, los retos y las direcciones futuras de los modelos de visión.

Qué es la visión por ordenador

Imagina que entras en una tienda donde una cámara identifica tu cara, analiza tu estado de ánimo y te sugiere productos adaptados a tus preferencias, todo en tiempo real. Esto no es ciencia ficción, sino una realidad posibilitada por los modernos modelos de visión. Según un informe de Fortune Business Insight, el tamaño del mercado mundial de la visión por ordenador se valoró en 20.310 millones de USD en 2023 y se prevé que crezca de 25.410 millones de USD en 2024 a 175.720 millones de USD en 2032, lo que refleja los rápidos avances y la creciente adopción de esta tecnología en diversos sectores.

El campo de la visión por ordenador permite a los ordenadores detectar, identificar y analizar objetos dentro de imágenes. Al igual que otros campos relacionados con la IA, la visión por ordenador ha experimentado una rápida evolución en las últimas décadas, logrando avances notables. 

La historia de la visión por ordenador es extensa. En sus primeros años, los modelos de visión por ordenador eran capaces de detectar formas y bordes simples, a menudo limitados a tareas básicas como reconocer patrones geométricos o diferenciar entre zonas claras y oscuras. Sin embargo, los modelos actuales pueden realizar tareas complejas como la detección de objetos en tiempo real, el reconocimiento facial e incluso la interpretación de emociones a partir de expresiones faciales con una precisión y eficacia excepcionales. Esta espectacular progresión pone de manifiesto los increíbles avances logrados en potencia computacional, sofisticación algorítmica y disponibilidad de grandes cantidades de datos para el entrenamiento.

En este artículo, exploraremos los hitos clave en la evolución de la visión por ordenador. Recorreremos sus inicios, profundizaremos en el impacto transformador de las Redes Neuronales Convolucionales (CNN) y examinaremos los importantes avances que se produjeron después.

Primeros pasos de la visión por ordenador

Al igual que en otros campos de la IA, el desarrollo temprano de la visión por ordenador comenzó con la investigación fundacional y el trabajo teórico. Un hito importante fue el trabajo pionero de Lawrence G. Roberts sobre el reconocimiento de objetos tridimensionales, documentado en su tesis"Percepción Artificial de Sólidos Tridimensionales" a principios de la década de 1960. Sus aportaciones sentaron las bases de los futuros avances en este campo.

Los primeros algoritmos - Detección de aristas

Las primeras investigaciones sobre visión por ordenador se centraron en técnicas de procesamiento de imágenes, como la detección de bordes y la extracción de características. Algoritmos como el operador de Sobel, desarrollado a finales de los años 60, fueron de los primeros en detectar bordes calculando el gradiente de intensidad de la imagen.

Fig. 1. Una imagen que demuestra la detección de bordes, en la que la parte izquierda muestra el objeto original y la derecha la versión con bordes detectados.

Técnicas como los detectores de bordes de Sobel y Canny desempeñaron un papel crucial en la identificación de los límites dentro de las imágenes, que son esenciales para reconocer objetos y comprender escenas.

Aprendizaje automático y visión por ordenador

Reconocimiento de patrones

En la década de 1970, el reconocimiento de patrones surgió como un área clave de la visión por ordenador. Los investigadores desarrollaron métodos para reconocer formas, texturas y objetos en las imágenes, lo que allanó el camino para tareas de visión más complejas.

Fig. 2. Reconocimiento de patrones.

Uno de los primeros métodos de reconocimiento de patrones consistía en la comparación de plantillas, en la que una imagen se comparaba con un conjunto de plantillas para encontrar la mejor coincidencia. Este método estaba limitado por su sensibilidad a las variaciones de escala, rotación y ruido.

Fig. 3. Una plantilla a la izquierda encontrada dentro de la imagen de la derecha.

Los primeros sistemas de visión por ordenador estaban limitados por la escasa potencia de cálculo de la época. Los ordenadores de los años 60 y 70 eran voluminosos, caros y tenían una capacidad de procesamiento limitada.

Cambiar el juego con el aprendizaje profundo

Aprendizaje profundo y redes neuronales de convolución

El aprendizaje profundo y las Redes Neuronales Convolucionales (CNN) marcaron un momento crucial en el campo de la visión por ordenador. Estos avances han transformado drásticamente la forma en que los ordenadores interpretan y analizan los datos visuales, permitiendo una amplia gama de aplicaciones que antes se consideraban imposibles.

¿Cómo funciona la CNN?

Fig. 4. Arquitectura de una Red Neuronal Convolucional (CNN).

  1. Capas convolucionales: Las CNN utilizan capas convolucionales, que son un tipo de modelo de aprendizaje profundo diseñado para procesar datos estructurados en forma de cuadrícula, como imágenes o secuencias, mediante el aprendizaje automático de patrones jerárquicos. para escanear una imagen utilizando filtros o núcleos. Estos filtros detectan diversas características, como bordes, texturas y colores, deslizándose por la imagen y calculando productos de puntos. Cada filtro activa patrones específicos en la imagen, lo que permite al modelo aprender características jerárquicas.
  2. Funciones de activación: Después de la convolución, las funciones de activación como la ReLU (Unidad Lineal Rectificada), que es una función de activación popular en el aprendizaje profundo que emite la entrada directamente si es positiva, y cero en caso contrario, ayudando a las redes neuronales a aprender relaciones no lineales en los datos de forma eficiente. Esto ayuda a la red a aprender patrones y representaciones complejas.
  3. Capas de agrupamiento: Las capas de agrupamiento proporcionan una operación de muestreo descendente que reduce la dimensionalidad del mapa de características, ayudando a extraer las características más relevantes y reduciendo al mismo tiempo el coste computacional y el sobreajuste.
  4. Capas totalmente conectadas: Las capas finales de una CNN son capas totalmente conectadas que interpretan las características extraídas por las capas convolucionales y de agrupamiento para hacer predicciones. Estas capas son similares a las de las redes neuronales tradicionales.

‍Evoluciónde los modelos de visión CNN

‍Elrecorrido de los modelos de visión ha sido extenso, destacando algunos de los más notables:

  • LeNet (1989): LeNet fue una de las primeras arquitecturas CNN, utilizada principalmente para el reconocimiento de dígitos en cheques manuscritos. Su éxito sentó las bases para CNN más complejas, demostrando el potencial del aprendizaje profundo en el procesamiento de imágenes.
  • AlexNet (2012): AlexNet superó significativamente a los modelos existentes en la competición ImageNet, mostrando el poder del aprendizaje profundo. Este modelo utilizó activaciones ReLU, abandono y aumento de datos, estableciendo nuevos puntos de referencia en la clasificación de imágenes y despertando un amplio interés por las CNN.
  • VGGNet (2014): Al utilizar filtros convolucionales más pequeños (3x3), VGGNet logró resultados impresionantes en tareas de clasificación de imágenes, lo que refuerza la importancia de la profundidad de la red para lograr una mayor precisión.
  • ResNet (2015): ResNet abordó el problema de la degradación en las redes profundas introduciendo el aprendizaje residual. Esta innovación permitió el entrenamiento de redes mucho más profundas, dando lugar a un rendimiento de vanguardia en diversas tareas de visión por ordenador.
  • YOLO (Sólo se mira una vez): YOLO revolucionó la detección de objetos planteándola como un único problema de regresión, prediciendo directamente los recuadros delimitadores y las probabilidades de clase a partir de imágenes completas en una sola evaluación. Este enfoque permitió la detección de objetos en tiempo real con una velocidad y precisión sin precedentes, lo que lo hace adecuado para aplicaciones que requieren un procesamiento instantáneo, como la conducción autónoma y la vigilancia.

‍Aplicaciones de Visión Artificial

Sanidad

‍Losusos de la visión por ordenador son numerosos. Por ejemplo, modelos de visión como Ultralytics YOLOv8 se utilizan en imágenes médicas para detectar enfermedades como el cáncer y la retinopatía diabética. Analizan radiografías, resonancias magnéticas y tomografías computarizadas con gran precisión, identificando anomalías de forma precoz. Esta capacidad de detección precoz permite intervenir a tiempo y mejorar los resultados de los pacientes.

Fig. 5. Detección de tumores cerebrales mediante Ultralytics YOLOv8.

Preservación del medio ambiente

Los modelos de visión por ordenador ayudan a vigilar y proteger las especies amenazadas analizando imágenes y vídeos de los hábitats de la fauna salvaje. Identifican y siguen el comportamiento de los animales, proporcionando datos sobre su población y movimientos. Esta tecnología informa las estrategias de conservación y las decisiones políticas para proteger especies como los tigres y los elefantes.

Con la ayuda de la IA de visión, se pueden vigilar otras amenazas medioambientales, como los incendios forestales y la deforestación, garantizando tiempos de respuesta rápidos por parte de las autoridades locales.

Fig. 6. Imagen de satélite de un incendio forestal.

Retos y orientaciones futuras

Aunque ya han alcanzado logros importantes, debido a su extrema complejidad y a lo exigente de su desarrollo, los modelos de visión se enfrentan a numerosos retos que requieren una investigación continua y futuros avances.

Interpretabilidad y explicabilidad

Los modelos de visión, especialmente los de aprendizaje profundo, suelen verse como "cajas negras" con una transparencia limitada. Esto se debe a que dichos modelos son increíblemente complejos. La falta de interpretabilidad dificulta la confianza y la responsabilidad, especialmente en aplicaciones críticas como la asistencia sanitaria, por ejemplo.

Requisitos computacionales

Entrenar y desplegar modelos de IA de última generación exige importantes recursos informáticos. Esto es especialmente cierto para los modelos de visión, que a menudo requieren procesar grandes cantidades de datos de imágenes y vídeos. Las imágenes y los vídeos de alta definición, que se encuentran entre las entradas de entrenamiento que requieren más datos, aumentan la carga computacional. Por ejemplo, una sola imagen de alta definición puede ocupar varios megabytes de almacenamiento, lo que hace que el proceso de entrenamiento consuma muchos recursos y tiempo. Esto requiere un hardware potente y algoritmos de visión por ordenador optimizados para manejar la gran cantidad de datos y los complejos cálculos necesarios para desarrollar modelos de visión eficaces. La investigación sobre arquitecturas más eficientes, la compresión de modelos y los aceleradores de hardware como las GPU y las TPU son áreas clave que harán avanzar el futuro de los modelos de visión. Estas mejoras pretenden reducir las demandas computacionales y aumentar la eficiencia del procesamiento. Además, el aprovechamiento de modelos avanzados preentrenados como YOLOv8 puede reducir significativamente la necesidad de un entrenamiento exhaustivo, agilizando el proceso de desarrollo y mejorando la eficiencia.

Un paisaje en constante evolución

Hoy en día, las aplicaciones de los modelos de visión están muy extendidas, y van desde la asistencia sanitaria, como la detección de tumores, hasta usos cotidianos como la supervisión del tráfico. Estos modelos avanzados han aportado innovación a innumerables industrias al proporcionar una mayor precisión, eficacia y capacidades que antes eran inimaginables. A medida que la tecnología sigue avanzando, el potencial de los modelos de visión para innovar y mejorar diversos aspectos de la vida y la industria sigue siendo ilimitado. Esta evolución continua subraya la importancia de la investigación y el desarrollo continuos en el campo de la visión por ordenador.

¿Tienes curiosidad por el futuro de la IA de visión? Para más información sobre los últimos avances, explora Ultralytics Docs, y consulta sus proyectos en Ultralytics GitHub y YOLOv8 GitHub. Además, para conocer las aplicaciones de la IA en diversos sectores, las páginas de soluciones sobre coches autónomos y fabricación ofrecen información especialmente útil.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático