Cheque verde
Enlace copiado en el portapapeles

Todo lo que necesitas saber sobre la Visión por Computador en 2025

Descubre cómo la visión por ordenador está transformando las industrias con tareas potenciadas por la IA, como la detección de objetos, la clasificación de imágenes y la estimación de poses.

Hace veinte años, la idea de que las máquinas y los ordenadores pudieran ver y comprender el mundo era sólo ciencia ficción. Hoy, gracias a los avances en inteligencia artificial (IA), ese concepto se ha hecho realidad. En concreto, la visión por ordenador (VC), una rama de la IA, permite a las máquinas comprender y analizar imágenes y vídeos. Ya sea para identificar objetos en tiempo real, mejorar los sistemas de seguridad o automatizar tareas complejas, su potencial está ampliando los límites de lo posible. 

La visión por ordenador está configurando rápidamente el futuro de la tecnología a medida que diversas industrias exploran diferentes formas de adoptar sus capacidades únicas. El tamaño del mercado mundial de la tecnología de visión por ordenador alcanzó los 19.830 millones de dólares en 2024 y se prevé que crezca un 19,8% anual en los próximos años.

__wf_reserved_inherit
Figura 1. Tamaño del mercado mundial de la visión por ordenador.

En este artículo, examinaremos más de cerca la visión por ordenador, cubriendo qué es, cómo ha evolucionado y cómo funciona hoy en día. También exploraremos algunas de sus aplicaciones más interesantes. Empecemos.

¿Qué es la visión por ordenador?

La visión por ordenador es un subcampo de la IA que aprovecha el aprendizaje automático y las redes neuronales para enseñar a los ordenadores a comprender el contenido de los datos visuales, como imágenes o archivos de vídeo. La información obtenida de las imágenes procesadas puede utilizarse para tomar mejores decisiones. Por ejemplo, la visión por ordenador puede utilizarse en el comercio minorista para hacer un seguimiento de los niveles de inventario mediante el análisis de las imágenes de las estanterías o para mejorar la experiencia de compra con sistemas de caja automatizados. Muchas empresas ya están utilizando la tecnología de visión por ordenador para distintas aplicaciones que van desde tareas como añadir filtros a las fotos de los smartphones hasta el control de calidad en la fabricación. 

Quizá te preguntes: ¿por qué son tan necesarias las soluciones de visión artificial? Las tareas que requieren una atención constante, como detectar defectos o reconocer patrones, pueden ser difíciles para los humanos. Los ojos pueden cansarse, y pueden perderse detalles, sobre todo en entornos complejos o de ritmo rápido. 

Aunque las personas son buenas reconociendo objetos de distintos tamaños, colores, iluminación o ángulos, a menudo les cuesta mantener la coherencia bajo presión. Las soluciones de visión artificial, en cambio, trabajan sin descanso, procesando con rapidez y precisión grandes cantidades de datos visuales. Por ejemplo, pueden analizar el tráfico en tiempo real para detectar atascos, optimizar la temporización de las señales o incluso identificar accidentes más rápido de lo que podría hacerlo un observador humano.

Comprender la historia de la visión por ordenador

A lo largo de los años, la visión por ordenador ha pasado de ser un concepto teórico a una tecnología fiable que impulsa la innovación en todos los sectores. Echemos un vistazo a algunos de los hitos clave que han definido su desarrollo:

  • Década de 1950 - Década de 1960: Los investigadores empezaron a desarrollar algoritmos para procesar y analizar datos visuales, pero los avances fueron lentos debido a la limitada potencia de cálculo.
  • 1970s: En esta década se produjeron importantes mejoras en los algoritmos, como la Transformada de Hough, que mejoró la detección de líneas y formas geométricas en las imágenes. También surgió el Reconocimiento Óptico de Caracteres (OCR), que hizo posible que las máquinas leyeran texto impreso.
  • Década de 1980 - Década de 1990: El aprendizaje automático empezó a desempeñar un papel en la visión por ordenador, allanando el camino para capacidades más avanzadas y futuros avances.
  • Década de 2000 - Década de 2010: El aprendizaje profundo aportó una nueva dimensión a la visión por ordenador, equipando a las máquinas para interpretar los datos visuales con mayor eficacia. Mejoró capacidades como la identificación de objetos, el análisis del movimiento y la ejecución de tareas complejas.

Hoy en día, la visión por ordenador está avanzando rápidamente y transformando la forma en que resolvemos problemas en áreas como la sanidad, los vehículos autónomos y las ciudades inteligentes. Ultralytics YOLO Los modelos (You Only Look Once), diseñados para tareas de visión por ordenador en tiempo real, facilitan la aplicación eficaz y precisa de la IA de visión en diversos sectores. A medida que la IA y el hardware siguen mejorando, estos modelos ayudan a las empresas a tomar decisiones más inteligentes y a agilizar las operaciones mediante el análisis avanzado de datos visuales.

Cómo funciona la visión por ordenador

Los sistemas de visión por ordenador funcionan utilizando redes neuronales, que son algoritmos inspirados en el funcionamiento del cerebro humano, para analizar imágenes. Un tipo específico, llamado Redes Neuronales Convolucionales (CNN), es especialmente bueno para reconocer patrones, como bordes y formas en las imágenes. 

Para simplificar los datos visuales, técnicas como la agrupación se centran en las partes más importantes de una imagen, mientras que capas adicionales procesan esta información para realizar tareas como la identificación de rasgos o la detección de objetos. Los modelos avanzados como Ultralytics YOLO11diseñados para ofrecer velocidad y precisión, hacen posible el procesamiento de imágenes en tiempo real.

__wf_reserved_inherit
Fig. 2. Un ejemplo de utilización de Ultralytics YOLO11 para la detección de objetos.

Una aplicación típica de visión por ordenador implica varios pasos para transformar las imágenes sin procesar en información útil. He aquí las cuatro etapas principales:

  • Adquisición de imágenes: Los datos visuales se recogen mediante cámaras o sensores, y la calidad de las imágenes depende del tipo de sensor utilizado.
  • Procesamiento de imágenes: Los datos recogidos se mejoran mediante técnicas de preprocesamiento, como reducir el ruido y resaltar los bordes, para facilitar su análisis.
  • Extracción de características: Se seleccionan los detalles importantes, como formas y texturas, centrándose en las partes de la imagen que más importan.  
  • Reconocimiento de patrones: Las características identificadas se analizan utilizando el aprendizaje automático para completar tareas como la detección de objetos, el seguimiento del movimiento o el reconocimiento de patrones.

Explorar las tareas de visión por ordenador

Te habrás dado cuenta de que, al hablar de cómo funciona la visión por ordenador, hemos mencionado las tareas de visión por ordenador. Modelos como Ultralytics YOLO11 están construidos para soportar estas tareas, ofreciendo soluciones rápidas y precisas para aplicaciones del mundo real. Desde la detección de objetos hasta el seguimiento de su movimiento, YOLO11 maneja estas tareas con eficacia. Exploremos algunas de las principales tareas de visión por ordenador que admite y cómo funcionan.

Detección de objetos

La detección de objetos es una tarea clave de la visión por ordenador, y se utiliza para identificar objetos de interés en una imagen. El resultado de una tarea de detección de objetos es un conjunto de cuadros delimitadores (rectángulos dibujados alrededor de los objetos detectados en una imagen), junto con etiquetas de clase (la categoría o tipo de cada objeto, como "coche" o "persona") y puntuaciones de confianza (un valor numérico que indica el grado de certeza del modelo sobre cada detección). Por ejemplo, la detección de objetos puede utilizarse para identificar y señalar la ubicación de un peatón en una calle o de un coche en el tráfico.

__wf_reserved_inherit
Fig 3. YOLO11 se utiliza para detectar objetos.

Clasificación de imágenes

El objetivo principal de la clasificación de imágenes es asignar una etiqueta o categoría predefinida a una imagen de entrada basándose en su contenido global. Esta tarea suele implicar la identificación del objeto o característica dominante dentro de la imagen. Por ejemplo, la clasificación de imágenes puede utilizarse para determinar si una imagen contiene un gato o un perro. Los modelos de visión por ordenador como YOLO11 pueden incluso entrenarse a medida para clasificar razas individuales de gatos o perros, como se muestra a continuación.

__wf_reserved_inherit
Fig 4. Clasificación de diferentes razas de gatos mediante YOLO11.

Segmentación de instancias

La segmentación de instancias es otra tarea crucial de la visión por ordenador que se utiliza en diversas aplicaciones. Consiste en descomponer una imagen en segmentos e identificar cada objeto individual, aunque haya varios objetos del mismo tipo. A diferencia de la detección de objetos, la segmentación de instancias va un paso más allá al delinear los límites precisos de cada objeto. Por ejemplo, en la fabricación y reparación de automóviles, la segmentación de instancias puede ayudar a identificar y etiquetar cada pieza del coche por separado, haciendo que el proceso sea más preciso y eficaz.

__wf_reserved_inherit
Fig 5. Segmentación de piezas de automóvil mediante YOLO11.

Estimación de la pose

El objetivo de la estimación de la pose es determinar la posición y orientación de una persona u objeto prediciendo la ubicación de puntos clave, como las manos, la cabeza y los codos. Esto es especialmente útil en aplicaciones en las que es importante comprender las acciones físicas en tiempo real. La estimación de la pose humana se utiliza habitualmente en áreas como el análisis deportivo, la monitorización del comportamiento animal y la robótica.

__wf_reserved_inherit
Fig 6. YOLO11 puede ayudar en la estimación de la pose humana.

Para explorar las demás tareas de visión por ordenador que admite YOLO11, puedes consultar la documentación oficial de Ultralytics . En ella se ofrece información detallada sobre cómo YOLO11 gestiona tareas como el seguimiento de objetos y la detección de objetos con caja delimitadora orientada (OBB).

Modelos de visión por ordenador populares hoy en día

A pesar de que existen muchos modelos de visión por ordenador, la serie Ultralytics YOLO destaca por su gran rendimiento y versatilidad. Con el tiempo, los modelos Ultralytics YOLO han mejorado, haciéndose más rápidos, precisos y capaces de realizar más tareas. Cuando se introdujo Ultralytics YOLOv5 se facilitó el despliegue de modelos con marcos de trabajo de IA de Visión como PyTorch. Permitió a un mayor número de usuarios trabajar con la IA de Visión avanzada, combinando una gran precisión con la facilidad de uso.

A continuación Ultralytics YOLOv8 llevó las cosas más lejos añadiendo nuevas capacidades como la segmentación de instancias, la estimación de poses y la clasificación de imágenes. Mientras tanto, la última versión, YOLO11, ofrece el máximo rendimiento en múltiples tareas de visión por ordenador. Con un 22% menos de parámetros que YOLOv8m, YOLO11m alcanza una mayor precisión media (mAP) en el conjunto de datos COCO, lo que significa que puede detectar objetos con mayor precisión y eficacia. Tanto si eres un desarrollador experimentado como si te inicias en la IA, YOLO11 te ofrece una potente solución para tus necesidades de visión por ordenador.

El papel de la visión por ordenador en la vida cotidiana

Antes hemos hablado de cómo pueden aplicarse modelos de visión por ordenador como YOLO11 en una amplia gama de sectores. Ahora, vamos a explorar más casos de uso que están cambiando nuestra vida cotidiana.

Visión AI en sanidad

Existe una amplia gama de aplicaciones para la visión por ordenador en la asistencia sanitaria. Tareas como la detección y clasificación de objetos se utilizan en la imagen médica para que la detección de enfermedades sea más rápida y precisa. En el análisis de rayos X, la visión por ordenador puede identificar patrones que podrían ser demasiado sutiles para el ojo humano. 

También se utiliza en la detección del cáncer para comparar las células cancerosas con las sanas. Del mismo modo, con respecto a las tomografías computarizadas y las resonancias magnéticas, la visión por ordenador puede utilizarse para analizar imágenes con una precisión casi humana. Ayuda a los médicos a tomar mejores decisiones y, en última instancia, a salvar más vidas.

__wf_reserved_inherit
Fig 7. YOLO11 se utiliza para analizar escáneres médicos.

La IA en la industria del automóvil

La visión por ordenador es fundamental para los coches autoconducidos, ya que les ayuda a detectar objetos como señales de tráfico y semáforos. Técnicas como el reconocimiento óptico de caracteres (OCR) permiten al coche leer el texto de las señales de tráfico. También se utiliza para la detección de peatones, donde las tareas de detección de objetos identifican a las personas en tiempo real. 

Además, la visión por ordenador puede detectar incluso grietas y baches en la superficie de las carreteras, lo que permite una mejor supervisión de las condiciones cambiantes de las carreteras. En general, la tecnología de visión por ordenador puede desempeñar un papel clave en la mejora de la gestión del tráfico, el aumento de la seguridad del tránsito y el apoyo a la planificación de ciudades inteligentes.

__wf_reserved_inherit
Fig 8. Comprender el tráfico mediante YOLO11.

Visión por ordenador en la agricultura

Supongamos que los agricultores pudieran sembrar, regar y cosechar automáticamente sus cultivos a tiempo, sin preocupaciones. Eso es exactamente lo que la visión por ordenador aporta a la agricultura. Facilita la supervisión de los cultivos en tiempo real, de modo que los agricultores pueden detectar problemas como enfermedades o deficiencias de nutrientes con más precisión que los humanos. 

Además de la supervisión, las desmalezadoras automáticas impulsadas por IA e integradas con visión por ordenador pueden identificar y eliminar las malas hierbas, reduciendo los costes de mano de obra y aumentando el rendimiento de los cultivos. Esta combinación de tecnologías ayuda a los agricultores a optimizar sus recursos, mejorar la eficacia y proteger sus cultivos.

__wf_reserved_inherit
Fig. 9. Un ejemplo de utilización de YOLO11 en la agricultura.

Automatizar los procesos de fabricación con IA

En la fabricación, la visión por ordenador ayuda a supervisar la producción, comprobar la calidad del producto y hacer un seguimiento automático de los trabajadores. La IA de visión agiliza el proceso y lo hace más preciso, a la vez que reduce los errores, con la consiguiente reducción de costes. 

Concretamente, para garantizar la calidad, se suelen utilizar la detección de objetos y la segmentación de instancias. Los sistemas de detección de defectos realizan una comprobación final de los productos acabados para garantizar que sólo los mejores llegan a los clientes. Cualquier producto con abolladuras o grietas se identifica automáticamente y se rechaza. Estos sistemas también rastrean y cuentan los productos en tiempo real, proporcionando una supervisión continua en la cadena de montaje.

__wf_reserved_inherit
Fig 10. Supervisión de una cadena de montaje mediante visión por ordenador.

Educación más impactante gracias a la visión por ordenador

Una de las formas en que se utiliza la visión por ordenador en el aula es mediante el reconocimiento de gestos: personaliza el aprendizaje detectando los movimientos de los alumnos. Modelos como YOLO11 son excelentes para esta tarea. Pueden identificar con precisión gestos como manos levantadas o expresiones de confusión en tiempo real. 

Cuando se detectan estos gestos, se puede ajustar una lección en curso proporcionando ayuda adicional o modificando el contenido para que se adapte mejor a las necesidades del alumno. Esto crea un entorno de aprendizaje más dinámico y adaptable, que ayuda a los profesores a centrarse en la enseñanza mientras el sistema apoya la experiencia de aprendizaje de cada alumno.

Tendencias recientes en visión por ordenador

Ahora que hemos explorado algunas de las aplicaciones de la visión por ordenador en diversas industrias, vamos a sumergirnos en las tendencias clave que impulsan su progreso.

Una de las principales tendencias es la computación de borde, un marco informático distribuido que procesa los datos más cerca de su fuente. Por ejemplo, la computación de borde equipa dispositivos como cámaras y sensores para procesar datos visuales directamente, lo que se traduce en tiempos de respuesta más rápidos, menos retrasos y mayor privacidad.

Otra tendencia clave en la visión por ordenador es el uso de la realidad fusionada. Combina el mundo físico con elementos digitales, utilizando la visión por ordenador para hacer que los objetos virtuales se mezclen suavemente con el mundo real. Puede utilizarse para mejorar las experiencias en los juegos, la educación y la formación. 

Pros y contras de la visión por ordenador

He aquí algunas de las principales ventajas que la visión por ordenador puede aportar a diversas industrias:

  • Ahorro de costes: Automatizar las tareas con visión por ordenador ayuda a reducir los costes operativos, mejorar la productividad y minimizar los errores.
  • Escalabilidad: Una vez implementados, los sistemas de visión artificial pueden escalarse fácilmente para manejar grandes cantidades de datos, lo que los hace adecuados para empresas en crecimiento u operaciones a gran escala.
  • Personalización específica de la aplicación: Los modelos de visión artificial pueden ajustarse con precisión utilizando tu conjunto de datos, lo que te proporciona soluciones altamente especializadas que cumplen los requisitos de tu aplicación.

Aunque estas ventajas ponen de relieve cómo la visión por ordenador puede influir en diversos sectores, también es importante tener en cuenta los retos que implica su aplicación. He aquí algunos de los principales retos:

  • Preocupación por la privacidad de los datos: El uso de datos visuales, especialmente en áreas sensibles como la vigilancia o la asistencia sanitaria, puede plantear problemas de privacidad y preocupaciones de seguridad.
  • Limitaciones del entorno: Los sistemas de visión por ordenador pueden tener dificultades para funcionar correctamente en entornos difíciles, como una iluminación deficiente, imágenes de baja calidad o fondos complejos.
  • Coste inicial elevado: Desarrollar e implantar sistemas de visión por ordenador puede resultar caro debido a la necesidad de hardware, software y conocimientos especializados.

Puntos clave

La visión por ordenador está reinventando la forma en que las máquinas interactúan con el mundo, permitiéndoles ver y comprender el mundo como lo hacen los humanos. Ya se está utilizando en muchos ámbitos, como mejorar la seguridad en los coches autoconducidos, ayudar a los médicos a diagnosticar enfermedades más rápidamente, hacer compras más personalizadas e incluso ayudar a los agricultores a controlar sus cultivos. 

A medida que la tecnología sigue mejorando, nuevas tendencias como el edge computing y la realidad fusionada abren aún más posibilidades. Aunque existen algunos retos, como los sesgos y los elevados costes, la visión por ordenador tiene potencial para tener un enorme impacto positivo en muchas industrias en el futuro.

Para saber más, visita nuestro repositorio de GitHub y participa en nuestra comunidad. Explora las innovaciones en sectores como la IA en los coches autoconducidos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. 🚀

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático