¿Qué es la Máscara R-CNN y cómo funciona?

Aprende cómo se puede utilizar la R-CNN de máscara para segmentar con precisión objetos en imágenes y vídeos para diversas aplicaciones en distintos sectores.

Escrito por

Abirami Vina

min leer

21 de marzo de 2025

13 de abril de 2025

Una visión general de la R-CNN de máscara

Un vistazo a la arquitectura de Mask R-CNN y a su funcionamiento

Empezando por la extracción de rasgos

Sugerir zonas potenciales de la imagen con objetos

Mejorar los rasgos extraídos

Clasificar objetos y predecir sus máscaras

Máscara R-CNN y sus aplicaciones en tiempo real

Limitaciones de la R-CNN de máscara

De la máscara R-CNN a Ultralytics YOLO11

Puntos clave

Innovaciones como los robots en los almacenes, los coches autoconducidos que circulan con seguridad por calles concurridas, los drones que controlan las cosechas y los sistemas de IA que inspeccionan los productos en las fábricas son cada vez más comunes a medida que aumenta la adopción de la IA. Una tecnología clave que impulsa estas innovaciones es la visión por ordenador, una rama de la IA que permite a las máquinas comprender e interpretar datos visuales.

Por ejemplo, la detección de objetos es una tarea de visión por ordenador que ayuda a identificar y localizar objetos en imágenes utilizando cuadros delimitadores. Aunque los cuadros delimitadores ofrecen información útil, sólo proporcionan una estimación aproximada de la posición de un objeto y no pueden captar su forma o límites exactos. Esto los hace menos eficaces en aplicaciones que requieren una identificación precisa.

Para resolver este problema, los investigadores desarrollaron modelos de segmentación que captan los contornos exactos de los objetos, proporcionando detalles a nivel de píxel para una detección y un análisis más precisos.

Mask R-CNN es uno de estos modelos. Introducido en 2017 por Facebook AI Research (FAIR), se basa en modelos anteriores como R-CNN, Fast R-CNN y Faster R-CNN. Como hito importante en la historia de la visión por ordenador, Mask R-CNN ha allanado el camino para modelos más avanzados, como Ultralytics YOLO11.

En este artículo exploraremos qué es la Máscara R-CNN, cómo funciona, sus aplicaciones y qué mejoras vinieron después, hasta llegar a YOLO11.

Una visión general de la R-CNN de máscara

Mask R-CNN, siglas de Mask Region-based Convolutional Neural Network, es un modelo de aprendizaje profundo diseñado para tareas de visión por ordenador como la detección de objetos y la segmentación de instancias.

La segmentación de instancias va más allá de la detección tradicional de objetos, ya que no sólo identifica los objetos de una imagen, sino que perfila con precisión cada uno de ellos. Asigna una etiqueta única a cada objeto detectado y captura su forma exacta a nivel de píxel. Este enfoque detallado permite distinguir claramente entre objetos superpuestos y manejar con precisión formas complejas.

Mask R-CNN se basa en Faster R-CNN, que detecta y etiqueta objetos pero no define sus formas exactas. La R-CNN de máscara mejora esto al identificar los píxeles exactos que componen cada objeto, lo que permite un análisis de la imagen mucho más detallado y preciso.

__wf_reserved_inherit — Fig. 1. Comparación de la detección de objetos y la segmentación de instancias.

‍

Un vistazo a la arquitectura de Mask R-CNN y a su funcionamiento

Mask R-CNN adopta un enfoque paso a paso para detectar y segmentar objetos con precisión. Empieza extrayendo características clave mediante una red neuronal profunda (un modelo multicapa que aprende de los datos), luego identifica posibles áreas de objetos con una red de propuesta de regiones (un componente que sugiere probables regiones de objetos) y, por último, refina estas áreas creando máscaras de segmentación detalladas (contornos precisos de los objetos) que capturan la forma exacta de cada objeto.

A continuación, recorreremos cada paso para tener una mejor idea de cómo funciona Mask R-CNN.

‍

Empezando por la extracción de rasgos

El primer paso en la arquitectura de Mask R-CNN es descomponer la imagen en sus partes clave para que el modelo pueda entender lo que hay en ella. Piensa en ello como cuando miras una foto y te fijas de forma natural en detalles como formas, colores y bordes. El modelo hace algo parecido utilizando una red neuronal profunda llamada "columna vertebral" (a menudo ResNet-50 o ResNet-101), que actúa como sus ojos para escanear la imagen y captar los detalles clave.

Como los objetos de las imágenes pueden ser muy pequeños o muy grandes, Mask R-CNN utiliza una Red Piramidal de Características. Esto es como tener diferentes lupas que permiten al modelo ver tanto los detalles finos como la imagen más grande, asegurándose de que se perciben objetos de todos los tamaños.

Una vez extraídas estas características importantes, el modelo pasa a localizar los objetos potenciales en la imagen, preparando el escenario para el análisis posterior.

Sugerir zonas potenciales de la imagen con objetos

Una vez procesada la imagen en busca de rasgos clave, la Red de Propuesta de Regiones toma el relevo. Esta parte del modelo examina la imagen y sugiere zonas que probablemente contengan objetos.

Para ello, genera múltiples ubicaciones posibles de los objetos, llamadas anclas. A continuación, la red evalúa estas anclas y selecciona las más prometedoras para su posterior análisis. De este modo, el modelo se centra sólo en las zonas con más probabilidades de ser interesantes, en lugar de comprobar cada punto de la imagen.

‍

Mejorar los rasgos extraídos

Una vez identificadas las zonas clave, el siguiente paso es refinar los detalles extraídos de estas regiones. Los modelos anteriores utilizaban un método llamado ROI Pooling (agrupación de regiones de interés) para extraer características de cada zona, pero esta técnica a veces provocaba ligeros desajustes al redimensionar las regiones, lo que la hacía menos eficaz, sobre todo para objetos pequeños o superpuestos.

La R-CNN de máscara mejora esto utilizando una técnica denominada ROI Align (Alineación de la región de interés). En lugar de redondear las coordenadas como hace el ROI Pooling, ROI Align utiliza la interpolación bilineal para estimar los valores de los píxeles con mayor precisión. La interpolación bilineal es un método que calcula un nuevo valor de píxel promediando los valores de sus cuatro vecinos más próximos, lo que crea transiciones más suaves. Esto mantiene las características correctamente alineadas con la imagen original, lo que resulta en una detección y segmentación de objetos más precisas.

Por ejemplo, en un partido de fútbol, dos jugadores que están muy juntos podrían confundirse porque sus cuadros delimitadores se solapan. ROI Alinear ayuda a separarlos manteniendo sus formas distintas.

‍

Clasificar objetos y predecir sus máscaras

Una vez que ROI Align procesa la imagen, el siguiente paso es clasificar los objetos y afinar su ubicación. El modelo examina cada región extraída y decide qué objeto contiene. Asigna una puntuación de probabilidad a las distintas categorías y elige la mejor coincidencia.

Al mismo tiempo, ajusta las cajas delimitadoras para que se ajusten mejor a los objetos. Las cajas iniciales pueden no estar colocadas de forma ideal, por lo que esto ayuda a mejorar la precisión asegurándose de que cada caja rodea estrechamente al objeto detectado.

Por último, Mask R-CNN da un paso más: genera en paralelo una máscara de segmentación detallada para cada objeto.

Máscara R-CNN y sus aplicaciones en tiempo real

Cuando apareció este modelo, la comunidad de IA lo acogió con gran entusiasmo y pronto se utilizó en diversas aplicaciones. Su capacidad para detectar y segmentar objetos en tiempo real hizo que cambiara las reglas del juego en distintos sectores.

Por ejemplo, rastrear animales en peligro de extinción en la naturaleza es una tarea difícil. Muchas especies se desplazan por bosques densos, lo que dificulta su seguimiento por parte de los conservacionistas. Los métodos tradicionales utilizan cámaras trampa, drones e imágenes por satélite, pero clasificar a mano todos estos datos lleva mucho tiempo. Las identificaciones erróneas y los avistamientos perdidos pueden ralentizar los esfuerzos de conservación.

Al reconocer rasgos únicos como las rayas del tigre, las manchas de la jirafa o la forma de las orejas de un elefante, Mask R-CNN puede detectar y segmentar animales en imágenes y vídeos con mayor precisión. Incluso cuando los animales están parcialmente ocultos por los árboles o están muy juntos, el modelo puede separarlos e identificarlos individualmente, haciendo que la vigilancia de la fauna salvaje sea más rápida y fiable.

‍

Limitaciones de la R-CNN de máscara

A pesar de su importancia histórica en la detección y segmentación de objetos, la R-CNN de máscara también presenta algunos inconvenientes importantes. He aquí algunos retos relacionados con la R-CNN de Máscara:

Alta demanda computacional: Depende de potentes GPU, lo que puede hacer que su ejecución sea cara y lenta al procesar grandes cantidades de datos.
Velocidad de procesamiento más lenta: Su proceso multietapa lo hace más lento en comparación con modelos en tiempo real más rápidos como YOLO, lo que puede no ser ideal para tareas sensibles al tiempo.
Dependencia de datos de alta calidad: El modelo funciona mejor con imágenes claras y bien etiquetadas. Las imágenes borrosas o mal iluminadas pueden reducir significativamente su precisión.
‍
Implementación compleja: La arquitectura multietapa puede ser difícil de configurar y optimizar, especialmente cuando se trata de grandes conjuntos de datos o recursos limitados.

De la máscara R-CNN a Ultralytics YOLO11

La R-CNN de máscara era estupenda para tareas de segmentación, pero muchas industrias buscaban adoptar la visión por ordenador priorizando la velocidad y el rendimiento en tiempo real. Este requisito llevó a los investigadores a desarrollar modelos de una sola etapa que detectan los objetos en una sola pasada, mejorando enormemente la eficacia.

A diferencia del proceso de varios pasos de Mask R-CNN, los modelos de visión por ordenador de una sola etapa como YOLO (You Only Look Once) se centran en tareas de visión por ordenador en tiempo real. En lugar de manejar la detección y la segmentación por separado, los modelos YOLO pueden analizar una imagen de una sola vez. Esto lo hace ideal para aplicaciones como la conducción autónoma, la sanidad, la fabricación y la robótica, donde es crucial una toma de decisiones rápida.

En concreto, YOLO11 da un paso más al ser a la vez rápido y preciso. Utiliza un 22% menos de parámetros que YOLOv8m , pero aún así consigue una precisión media superior (mAP) en el conjunto de datos COCO, lo que significa que detecta los objetos con mayor precisión. Su velocidad de procesamiento mejorada lo convierte en una buena elección para aplicaciones en tiempo real en las que cada milisegundo importa.

‍

Puntos clave

Si echamos la vista atrás en la historia de la visión por ordenador, la Máscara R-CNN está reconocida como un gran avance en la detección y segmentación de objetos. Ofrece resultados muy precisos incluso en entornos complejos, gracias a su detallado proceso de varios pasos.

Sin embargo, este mismo proceso lo hace más lento en comparación con los modelos en tiempo real como YOLO. A medida que aumenta la necesidad de velocidad y eficacia, muchas aplicaciones utilizan ahora modelos de una sola etapa como Ultralytics YOLO11, que ofrecen una detección de objetos rápida y precisa. Aunque la R-CNN de máscara es importante para comprender la evolución de la visión por ordenador, la tendencia hacia las soluciones en tiempo real pone de manifiesto la creciente demanda de soluciones de visión por ordenador más rápidas y eficaces.

¡Únete a nuestra creciente comunidad! Explora nuestro repositorio GitHub para aprender más sobre IA. ¿Estás listo para iniciar tus propios proyectos de visión por ordenador? Consulta nuestras opciones de licencia. Descubre la IA en la agricultura y la IA de visión en la sanidad visitando nuestras páginas de soluciones.

¿Qué es la Máscara R-CNN y cómo funciona?

Una visión general de la R-CNN de máscara