Glosario

Arquitecturas de detección de objetos

Descubre el poder de las arquitecturas de detección de objetos, la columna vertebral de la IA para la comprensión de imágenes. ¡Aprende tipos, herramientas y aplicaciones reales hoy mismo!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Las arquitecturas de detección de objetos son las estructuras fundamentales en las que se basa la forma en que los sistemas de inteligencia artificial (IA) interpretan la información visual. Estas redes neuronales especializadas están diseñadas no sólo para clasificar objetos dentro de una imagen (identificando lo que está presente), sino también para localizarlos con precisión, normalmente dibujando recuadros delimitadores alrededor de cada instancia detectada. Para quienes estén familiarizados con los conceptos básicos del aprendizaje automático, comprender estas arquitecturas es crucial para aprovechar las capacidades de la visión por ordenador moderna.

Componentes básicos

La mayoría de las arquitecturas de detección de objetos constan de varios componentes clave que trabajan juntos. Una red troncal, a menudo una Red Neuronal Convolucional (CNN), realiza la extracción inicial de características de la imagen de entrada, identificando patrones de bajo nivel como bordes y texturas, y características progresivamente más complejas. A menudo le sigue un componente de "cuello", que agrega características de distintas etapas de la red troncal para crear representaciones más ricas, adecuadas para detectar objetos a distintas escalas. Por último, la cabeza de detección utiliza estas características para predecir la clase y la ubicación (coordenadas de la caja delimitadora) de los objetos. El rendimiento suele medirse utilizando métricas como Intersección sobre Unión (IoU) para evaluar la precisión de la localización.

Tipos de arquitecturas

Las arquitecturas de detección de objetos se clasifican a grandes rasgos en función de su enfoque:

  • Detectores de dos etapas: Estas arquitecturas, como R-CNN y sus sucesoras como Faster R-CNN, identifican primero las posibles regiones de interés (propuestas de región) dentro de la imagen y luego clasifican y refinan los cuadros delimitadores de los objetos dentro de estas regiones. Suelen ser conocidas por su gran precisión, pero pueden ser más lentas.
  • Detectores de una etapa: Arquitecturas como SSD(Single Shot MultiBox Detector) y Ultralytics YOLO (You Only Look Once) realizan la localización y clasificación de objetos simultáneamente en una sola pasada hacia delante a través de la red. Esto los hace significativamente más rápidos y adecuados para la inferencia en tiempo real. Los modelos YOLO modernos como YOLO11 suelen emplear técnicas sin anclaje, lo que simplifica el diseño y mejora potencialmente la generalización en comparación con los antiguos métodos basados en anclajes.

Distinción de términos similares

Es importante diferenciar las arquitecturas de detección de objetos de las tareas de visión por ordenador relacionadas:

  • Clasificación de imágenes: Identifica el sujeto principal de una imagen (por ejemplo, "gato"), pero no lo localiza. La detección de objetos te dice qué objetos hay y dónde están.
  • Segmentación semántica: Clasifica cada píxel de una imagen en categorías predefinidas (por ejemplo, carretera, coche, cielo), proporcionando una comprensión densa a nivel de píxel sin distinguir entre instancias de objetos individuales.
  • Segmentación de instancias: Va un paso más allá que la detección de objetos y la segmentación semántica, identificando instancias de objetos individuales y proporcionando una máscara a nivel de píxel para cada una de ellas.

Aplicaciones en el mundo real

Las arquitecturas de detección de objetos impulsan numerosas aplicaciones de IA en diversos sectores:

  1. Vehículos autónomos: Crucial para permitir que los coches autónomos perciban su entorno detectando otros vehículos, peatones, ciclistas y señales de tráfico para una navegación segura(consulta el blog AI in self-driving cars).
  2. Análisis de imágenes médicas: Ayuda a los radiólogos detectando y localizando automáticamente anomalías como tumores, lesiones o fracturas en radiografías, tomografías computarizadas y resonancias magnéticas, lo que puede conducir a diagnósticos más precoces(explora la IA en la asistencia sanitaria).
  3. Seguridad y vigilancia: Automatización de la vigilancia mediante la detección de intrusiones, la identificación de personas concretas(reconocimiento facial) o el seguimiento de objetos en las secuencias de vídeo(consulta la Guía del Sistema de Alarma de Seguridad).
  4. Análisis del comercio minorista: Supervisión de las existencias en las estanterías(IA para la gestión de inventarios), análisis del tráfico peatonal de clientes y mejora de los sistemas de caja.

Herramientas y tecnologías

Desarrollar y desplegar modelos basados en estas arquitecturas suele implicar herramientas y marcos especializados:

  • Ultralytics YOLO: Una popular familia de modelos y un marco de trabajo complementario conocidos por equilibrar velocidad y precisión, muy utilizados para aplicaciones en tiempo real. Puedes comparar diferentes versiones de YOLO , como YOLO11 frente a YOLOv10.
  • Ultralytics HUB: Una plataforma que simplifica el proceso de formación, gestión y despliegue de modelos YOLO sin necesidad de una codificación exhaustiva.
  • Marcos de aprendizaje profundo: Bibliotecas como PyTorch y TensorFlow proporcionan los bloques de construcción para crear y entrenar estas complejas redes neuronales.
  • OpenCV: Una biblioteca esencial de código abierto que ofrece una amplia gama de funciones de visión por ordenador que suelen utilizarse junto con modelos de detección para tareas de preprocesamiento y postprocesamiento.
Leer todo