Explora el poder de los modelos básicos en la IA. Aprende a adaptar modelos a gran escala como Ultralytics para tareas personalizadas utilizando la Ultralytics .
Un modelo base representa un cambio de paradigma significativo en el campo de la inteligencia artificial (IA). Se trata de un modelo de aprendizaje automático a gran escala entrenado con una gran cantidad de datos, que a menudo abarca miles de millones de parámetros, y que puede adaptarse a una amplia gama de tareas posteriores. A diferencia de los modelos tradicionales de aprendizaje automático (ML), que normalmente se crean con un propósito específico y singular, como clasificar un tipo concreto de flor, un modelo básico aprende patrones, estructuras y relaciones amplias durante una fase de preentrenamiento que requiere muchos recursos. Esta amplia base de conocimientos permite a los desarrolladores aplicar el modelo a nuevos problemas mediante el aprendizaje por transferencia, lo que reduce significativamente el tiempo y los datos necesarios para lograr resultados de vanguardia.
El poder de un modelo base reside en su proceso de desarrollo en dos etapas: preentrenamiento y ajuste. Durante el preentrenamiento, el modelo se expone a conjuntos de datos masivos, como grandes porciones de Internet, diversas bibliotecas de imágenes o extensos repositorios de código. Esta etapa suele utilizar el aprendizaje auto-supervisado, una técnica en la que el modelo genera sus propias etiquetas a partir de la propia estructura de datos, eliminando el cuello de botella de la anotación manual de datos. Por ejemplo, un modelo de lenguaje puede aprender a predecir la siguiente palabra de una frase, mientras que un modelo de visión aprende a entender los bordes, las texturas y la permanencia de los objetos.
Una vez preentrenado, el modelo actúa como un punto de partida versátil. A través de un proceso denominado ajuste fino, los desarrolladores pueden modificar los pesos del modelo en un conjunto de datos más pequeño y específico del dominio. Esta capacidad es fundamental para la democratización de la IA, ya que permite a las organizaciones con recursos computacionales limitados aprovechar arquitecturas potentes. Los flujos de trabajo modernos suelen utilizar herramientas como la Ultralytics para agilizar este proceso de adaptación, lo que permite un entrenamiento eficiente en conjuntos de datos personalizados sin necesidad de construir una red neuronal desde cero.
Los modelos de foundation sirven como columna vertebral para las innovaciones en diversas industrias. Su capacidad de generalización los hace aplicables a tareas que van desde el procesamiento del lenguaje natural hasta la visión artificial avanzada.
Los desarrolladores pueden aprovechar los modelos básicos para realizar tareas complejas con un mínimo de código. El siguiente ejemplo muestra cómo cargar un modelo YOLO26preentrenado, un modelo básico de visión optimizado para aplicaciones en tiempo real, y realizar la detección de objetos en una imagen.
from ultralytics import YOLO
# Load a pre-trained YOLO26 foundation model
# 'n' stands for nano, the smallest and fastest version
model = YOLO("yolo26n.pt")
# Perform inference on an image to detect objects
# The model uses its pre-trained knowledge to identify common objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Es útil distinguir el «modelo base» de conceptos relacionados en el panorama de la IA para comprender sus funciones específicas:
La evolución de los modelos básicos avanza hacia la IA multimodal, en la que un único sistema puede procesar y relacionar simultáneamente información procedente de texto, imágenes, audio y datos de sensores. Las investigaciones de instituciones como el Instituto de Stanford para la IA Centrada en el Ser Humano (HAI) destacan el potencial de estos sistemas para razonar sobre el mundo de una manera más parecida a la de los humanos. A medida que estos modelos se vuelven más eficientes, su implementación en dispositivos de computación periférica se hace cada vez más factible, lo que aporta potentes capacidades de IA directamente a los teléfonos inteligentes, los drones y los sensores del IoT.