Глоссарий

Большая языковая модель (LLM)

Узнай, как большие языковые модели (Large Language Models, LLM) революционизируют ИИ с помощью продвинутого NLP, питая чат-боты, создавая контент и многое другое. Узнай ключевые понятия!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Большие языковые модели (Large Language Models, LLM) представляют собой значительное достижение в области искусственного интеллекта (ИИ), в частности в обработке естественного языка (NLP). Эти модели характеризуются огромным масштабом, часто содержат миллиарды параметров и обучаются на огромных наборах данных, состоящих из текста и кода. Такое обширное обучение позволяет LLM понимать контекст, генерировать связный и человекоподобный текст, переводить языки, отвечать на вопросы и выполнять широкий спектр языковых задач с поразительным мастерством. Они представляют собой особый тип моделей Deep Learning (DL), которые являются движущей силой инноваций в многочисленных приложениях.

Определение

Большая языковая модель - это, по сути, сложная нейронная сеть (НС), обычно основанная на архитектуре Transformer. Слово "большая" в LLM относится к огромному количеству параметров - переменных, настраиваемых в процессе обучения, - которое может варьироваться от миллиардов до триллионов. Большее количество параметров обычно позволяет модели выучить более сложные паттерны из данных. LLM изучают эти закономерности с помощью неконтролируемого обучения на массивных текстовых корпорациях, собранных из интернета, книг и других источников. Этот процесс помогает им понять грамматику, факты, способности к рассуждению и даже предубеждения, присутствующие в данных. Основные возможности включают предсказание последующих слов в предложении, что является основой для таких задач, как генерация текста и ответы на вопросы. Среди известных примеров - серия GPT от OpenAI, например GPT-4, модели Llama от Meta AI, например Llama 3, Gemini от Google DeepMind и Claude от Anthropic.

Приложения

Универсальность LLM позволяет применять их в самых разных областях. Вот два конкретных примера:

  • Разговорный искусственный интеллект: LLM питают сложные чат-боты и виртуальные помощники, такие как ChatGPT и Google Assistant, обеспечивая более естественное и контекстно-зависимое взаимодействие по сравнению со старыми системами, основанными на правилах. Они могут обрабатывать запросы клиентов, предоставлять информацию и вступать в сложные диалоги.
  • Создание контента и подведение итогов: Предприниматели и частные лица используют LLM для создания маркетинговых копий, написания статей, создания фрагментов кода и резюмирования объемных документов(Text Summarization). Такие инструменты, как Microsoft Copilot, интегрируют LLM, чтобы помочь пользователям в решении различных задач по написанию и кодированию.

Ключевые понятия

Понимание LLM предполагает знакомство с несколькими смежными понятиями:

  • Модели фундамента: LLM считаются одним из видов базовых моделей, то есть это большие модели, обученные на широких данных, которые можно адаптировать(тонко настроить) для различных последующих задач.
  • Механизмы внимания: Внимание - важнейшая составляющая архитектуры Transformer - позволяет модели оценивать важность различных слов во входной последовательности при генерации выходных данных, что позволяет лучше справляться с дальними зависимостями и контекстом. Основополагающая статья, в которой это было представлено, -"Attention Is All You Need".
  • Prompt Engineering: Это практика разработки эффективных входных сигналов (подсказок), которые направляют LLM к генерации желаемого результата. Качество подсказки существенно влияет на реакцию модели.
  • Токенизация: LLM обрабатывают текст, разбивая его на более мелкие единицы, называемые лексемами (слова, подслова или символы). То, как текст разбивается на лексемы, влияет на производительность модели и стоимость вычислений.

Хотя LLM отлично справляются с языковыми задачами, они отличаются от моделей, предназначенных в первую очередь для компьютерного зрения (CV), таких как модели Ultralytics YOLO , используемые для обнаружения объектов. Однако развитие мультимодальных моделей и Vision Language Models устраняет этот разрыв, объединяя понимание языка с визуальной обработкой. Платформы вроде Ultralytics HUB облегчают обучение и развертывание различных моделей ИИ, в том числе и для задач зрения.

Читать полностью