Descubre la potencia de las máquinas de vectores soporte (SVM) para la clasificación, la regresión y la detección de valores atípicos, con aplicaciones y conocimientos del mundo real.
La máquina de vectores de soporte (SVM) es un popular y potente algoritmo de aprendizaje automático (ML) supervisado que se utiliza principalmente para tareas de clasificación, aunque también es eficaz para la regresión (regresión de vectores de soporte - SVR) y la detección de valores atípicos. Desarrolladas en la década de 1990, las SVM funcionan encontrando un límite óptimo, llamado hiperplano, que separa mejor los puntos de datos que pertenecen a clases diferentes en un espacio de alta dimensión. La idea clave es maximizar el margen -la distancia entre el hiperplano y los puntos de datos más cercanos (vectores de soporte) de cada clase-, lo que a menudo conduce a un buen rendimiento de generalización en datos no vistos.
El principio básico de la SVM es encontrar el hiperplano ideal para dividir un conjunto de datos. Para los datos que pueden separarse mediante una línea recta o un plano llano (datos linealmente separables), la SVM identifica el hiperplano que crea la mayor separación posible entre las clases. Los puntos de datos más cercanos a este hiperplano, que son críticos para definir su posición y orientación, se conocen como vectores de apoyo. Este enfoque en los puntos más desafiantes cerca del límite hace que las SVM sean eficientes en memoria, ya que sólo se necesitan estos vectores de soporte para definir el modelo después del entrenamiento.
Para los conjuntos de datos en los que las clases no pueden separarse mediante una frontera lineal (datos separables no linealmente), las SVM emplean una técnica denominada truco del núcleo. Este ingenioso método permite a las SVM mapear los datos originales en un espacio de mayor dimensión en el que podría ser posible una separación lineal, sin calcular explícitamente las coordenadas en este nuevo espacio. Las funciones kernel más comunes son
La elección del núcleo y sus parámetros es crucial y a menudo requiere un cuidadoso ajuste de los hiperparámetros.
Las SVM siguen siendo relevantes a pesar del auge del Aprendizaje Profundo (AD), sobre todo en escenarios con datos de alta dimensión (muchas características) pero muestras de entrenamiento limitadas. Son conocidas por sus garantías teóricas y su robustez, especialmente cuando existe un claro margen de separación. Históricamente, las SVM combinadas con extractores de características como el Histograma de Gradientes Orientados (HOG ) eran la tecnología más avanzada para tareas como la detección de objetos, como se observa en la evolución de la detección de objetos.
Las aplicaciones más comunes son:
Ventajas:
Limitaciones:
En comparación con algoritmos más sencillos como la Regresión Logística, las SVM pretenden maximizar el margen en lugar de limitarse a encontrar un límite de separación, lo que puede conducir a una mejor generalización. A diferencia de los Árboles de Decisión o los Bosques Aleatorios, las SVM construyen un único hiperplano óptimo. Mientras que los modelos modernos de aprendizaje profundo como Ultralytics YOLO destacan en la extracción automática de características a partir de datos sin procesar (como los píxeles en visión por ordenador), las SVM a menudo requieren una cuidadosa ingeniería de características, pero pueden funcionar bien en conjuntos de datos más pequeños o en tipos específicos de datos estructurados. Algunas implementaciones populares son LibSVM y el módulo SVM de scikit-learn. El entrenamiento y la gestión de estos modelos pueden agilizarse utilizando plataformas como Ultralytics HUB.