Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Большая языковая модель (LLM)

Изучите основы больших языковых моделей (LLM). Узнайте об архитектуре Transformer, токенизации и о том, как сочетать LLM с Ultralytics .

Большая языковая модель (LLM) — это сложный тип искусственного интеллекта (ИИ), обученный на огромных наборах данных для понимания, генерации и манипулирования человеческим языком. Эти модели представляют собой значительную эволюцию в области глубокого обучения (DL), используя нейронные сети с миллиардами параметров для захвата сложных лингвистических паттернов, грамматики и семантических отношений. В своей основе большинство современных LLM полагаются на архитектуре Transformer, которая позволяет им обрабатывать последовательности данных параллельно, а не последовательно. Эта архитектура использует механизм самовнимания, позволяющий модели взвешивать важность различных слов в предложении относительно друг друга, независимо от их расстояния в тексте.

Основные механизмы LLM

Функциональность LLM начинается с токенизации, процесса, при котором исходный текст разбивается на более мелкие единицы, называемые токенами (словами или частями слов). На этапе обучения модели система анализирует петабайты текста из Интернета, книг и статей. Она занимается неконтролируемым обучением, чтобы предсказать следующий токен в последовательности, эффективно изучая статистическую структуру языка.

После этого начального обучения разработчики часто применяют тонкую настройку, чтобы специализировать модель для конкретных задач, таких как медицинский анализ или помощь в кодировании. Именно благодаря этой адаптивности такие организации, как Стэнфордский центр исследований фундаментальных моделей, classify как «фундаментальные модели» — широкие основы, на которых строятся конкретные приложения.

Применение в реальном мире

LLM вышли за рамки теоретических исследований и нашли практическое применение в различных отраслях промышленности, где они оказывают значительное влияние:

  • Интеллектуальные виртуальные помощники: современное обслуживание клиентов в значительной степени опирается на чат-ботов, работающих на основе LLM. В отличие от старых систем, основанных на правилах, эти агенты могут обрабатывать запросы с нюансами. Для повышения точности и уменьшения галлюцинаций разработчики интегрируют Retrieval Augmented Generation (RAG), что позволяет модели обращаться к внешней актуальной документации компании перед тем, как дать ответ.
  • Мультимодальные системы «зрение-язык»: передовые технологии искусственного интеллекта связывают текст с визуальными данными. Модели «зрение-язык» (VLM) позволяют пользователям искать изображения с помощью естественного языка. Например, сочетание лингвистического интерфейса с надежным детектором, таким как YOLO26, позволяет системам идентифицировать и описывать объекты в видеопотоках в реальном времени на основе голосовых команд.

Соединяя текст и видение с помощью кода

В то время как стандартные LLM обрабатывают текст, отрасль переходит к мультимодальному ИИ. Следующий пример демонстрирует, как лингвистические подсказки могут контролировать задачи компьютерного зрения с помощью YOLO, модели, которая понимает текстовые дескрипторы для обнаружения открытого словаря.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Различение смежных понятий

Важно отличать LLM от более широких или параллельных терминов:

  • LLM против обработки естественного языка (NLP): NLP — это общая академическая область, занимающаяся взаимодействием между компьютерами и человеческим языком. LLM — это специфический инструмент или технология, используемая в этой области для достижения передовых результатов.
  • LLM против генеративного ИИ: Генеративный ИИ — это категория, которая включает в себя любой ИИ, способный создавать новый контент. LLM — это текстовое подмножество этой категории, тогда как модели, такие как Stable Diffusion, представляют собой подмножество, генерирующее изображения .

Проблемы и перспективы

Несмотря на свои возможности, LLM сталкиваются с проблемами, связанными с предвзятостью ИИ, поскольку они могут непреднамеренно воспроизводить предвзятость, присутствующую в их обучающих данных. Кроме того, огромные вычислительные мощности, необходимые для обучения моделей, таких как GPT-4 или Google , вызывают опасения по поводу энергопотребления. В настоящее время исследования сосредоточены на квантовании моделей, чтобы сделать эти системы достаточно эффективными для работы на периферийном оборудовании.

Для более глубокого технического понимания в оригинальной статье «Внимание — это все, что вам нужно» представлена основополагающая теория трансформаторов. Вы также можете узнать, как NVIDIA оптимизирует аппаратное обеспечение для этих массивных рабочих нагрузок.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас