Изучите основы заземления в искусственном интеллекте. Узнайте, как связать естественный язык с визуальными данными с помощью Ultralytics и YOLO для обнаружения открытого словаря.
Основание относится к способности системы искусственного интеллекта связывать абстрактные концепции, обычно полученные из естественного языка, с конкретными представлениями в физическом мире, такими как визуальные данные или сенсорные входы. В контексте компьютерного зрения это означает, что модель не просто обрабатывает текст; она может анализировать фразу, такую как «человек, выгуливающий собаку», и точно локализовать эти объекты в изображении или видеопотоке. Этот процесс устраняет разрыв между символьным мышлением и восприятием на уровне пикселей, решая фундаментальную проблему символьного заземления в когнитивной науке. Связывая лингвистические токены с визуальными характеристиками, заземление служит краеугольным камнем современного мультимодального ИИ, позволяя машинам более интуитивно взаимодействовать с динамичной человеческой средой.
На техническом уровне заземление включает в себя выравнивание данных из разных модальностей в общее высокоразмерное векторное пространство. Передовые архитектуры, часто построенные на основе фреймворка Transformer, используемого в обработке естественного языка (NLP), генерируют числовые представления, известные как вложения, как для текстовых описаний, так и для визуальных входов. Во время обучения модель учится минимизировать расстояние между вложением текстового запроса (например, «синий рюкзак») и вложением соответствующей визуальной области.
Такое выравнивание позволяет осуществлять обнаружение с открытым словарем. В отличие от традиционного контролируемого обучения, где модель ограничена фиксированным набором категорий, заземление позволяет осуществлять обучение без предварительной подготовки. Заземленная модель может идентифицировать объекты, которые она никогда явно не видела во время обучения, при условии, что она понимает язык, описывающий их. Эта гибкость поддерживается такими фреймворками глубокого обучения, как PyTorch, которые облегчают сложные матричные операции, необходимые для этих мультимодальных выравниваний.
Технологии искусственного интеллекта меняют отрасли промышленности, позволяя системам интерпретировать намерения пользователей и эффективно ориентироваться в неструктурированных средах.
Ultralytics поддерживает заземление с помощью специализированных архитектур, таких как YOLO. В то время как стандартные модели требуют обучения на конкретных наборах данных, YOLO позволяет пользователям мгновенно определять пользовательские классы обнаружения с помощью текстовых подсказок. Это эффективно «заземляет» ввод естественного языка на изображение без повторного обучения.
Следующий пример демонстрирует, как использовать ultralytics пакет для detect на основе пользовательских
текстовых описаний:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Чтобы в полной мере оценить полезность заземления, полезно отличить его от аналогичных задач компьютерного зрения:
Несмотря на достигнутые успехи, заземление по-прежнему требует значительных вычислительных ресурсов. Согласование массивных языковых моделей с кодировщиками изображений требует значительных GPU и эффективного управления памятью, что часто является проблемой, которую решают такие инноваторы в области аппаратного обеспечения, как NVIDIA. Кроме того, модели могут испытывать трудности с лингвистической неоднозначностью, требуя больших контекстных окон, чтобы решить, относится ли слово «летучая мышь» к спортивному инструменту или животному.
Будущие разработки движутся в направлении унифицированных базовых моделей, которые изначально являются мультимодальными. Такие инструменты, как Ultralytics , развиваются, чтобы помочь разработчикам управлять сложными наборами данных, необходимыми для этих задач, предлагая оптимизированные рабочие процессы для аннотирования данных и развертывания моделей. По мере созревания этих технологий мы можем ожидать бесшовной интеграции заземления в пограничные устройства, что позволит создавать более интеллектуальные и отзывчивые приложения искусственного интеллекта.