Глоссарий

Большая языковая модель (LLM)

Узнай, как большие языковые модели (Large Language Models, LLM) революционизируют ИИ с помощью продвинутого NLP, питая чат-боты, создавая контент и многое другое. Узнай ключевые понятия!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Большие языковые модели (Large Language Models, LLM) представляют собой значительное достижение в области искусственного интеллекта (ИИ), в частности в обработке естественного языка (NLP). Эти модели характеризуются огромным масштабом, часто содержат миллиарды параметров и обучаются на огромных наборах данных, состоящих из текста и кода. Такое обширное обучение позволяет LLM понимать контекст, генерировать связный и человекоподобный текст, переводить языки, отвечать на вопросы и выполнять широкий спектр языковых задач с поразительным мастерством. Они представляют собой особый тип моделей глубокого обучения (Deep Learning, DL), стимулирующих инновации в многочисленных приложениях и являющихся краеугольным камнем современного генеративного ИИ.

Определение

Большая языковая модель - это, по сути, сложная нейронная сеть (НС), обычно основанная на архитектуре Transformer, представленной во влиятельной статье"Attention Is All You Need". Слово "большая" в LLM относится к огромному количеству параметров - переменных, настраиваемых в процессе обучения, - которое может варьироваться от миллиардов до триллионов. Как правило, большее количество параметров позволяет модели изучать более сложные паттерны из данных.

LLM изучают эти паттерны с помощью неконтролируемого обучения на массивных текстовых корпорациях, собранных из интернета, книг и других источников, которые часто называют Big Data. Этот процесс помогает им понять грамматику, факты, способность рассуждать и даже такие нюансы, как тон и стиль, хотя он также может привести к тому, что они узнают о предвзятости, присутствующей в обучающих данных. Основной способностью, развиваемой в процессе обучения, является предсказание последующих слов в предложении. Эта способность к прогнозированию является основой для более сложных задач, таких как генерация текста, языковое моделирование и ответы на вопросы.

Известные примеры - серия GPT от OpenAI (например, GPT-4), модели Llama от Meta AI, например Llama 3, Gemini от Google DeepMind и Claude от Anthropic.

Приложения

Универсальность LLM позволяет применять их в самых разных областях. Вот два конкретных примера:

Ключевые понятия

Понимание LLM предполагает знакомство с несколькими смежными понятиями:

  • Модели фундамента: LLM часто считаются базовыми моделями, потому что они обучаются на обширных данных и могут быть адаптированы (или тонко настроены) для широкого спектра последующих задач без необходимости обучения с нуля.
  • Механизмы внимания: В частности, самовнимание, эти механизмы позволяют модели взвешивать важность различных слов (токенов) во входной последовательности при обработке конкретного слова. Это очень важно для понимания контекста и взаимосвязей в тексте.
  • Prompt Engineering: Это искусство и наука разработки эффективных входных подсказок, которые направляют LLM на создание желаемого результата. Качество подсказки существенно влияет на точность и релевантность ответа. Такие техники, как подсказки в виде цепочки мыслей, помогают улучшить аргументацию при решении сложных задач.
  • Токенизация: Прежде чем обрабатывать текст, LLM разбивают его на более мелкие единицы, называемые лексемами. Этими лексемами могут быть слова, подслова или символы. Токенизация преобразует необработанный текст в числовой формат, понятный модели. Такие платформы, как Hugging Face предоставляют инструменты и информацию о различных стратегиях токенизации.

LLM против моделей компьютерного зрения

Хотя LLM отлично справляются с языковыми задачами, они существенно отличаются от моделей, предназначенных в первую очередь для компьютерного зрения (CV). Модели CV, такие как Ultralytics YOLO модели (например, YOLOv8, YOLOv9, YOLOv10 и YOLO11), специализируются на интерпретации визуальной информации из изображений или видео. В их задачи входит обнаружение объектов, классификация изображений и сегментация объектов.

Однако с появлением мультимодальных моделей и моделей языка зрения (VLM) эта граница стирается. Эти модели, такие как GPT-4o от OpenAI или Gemini от Google, объединяют понимание различных модальностей (например, текста и изображений), позволяя решать такие задачи, как описание изображений или ответы на вопросы о визуальном контенте.

Платформы вроде Ultralytics HUB предоставляют инструменты и инфраструктуру для обучения и развертывания различных моделей ИИ, в том числе и для задач зрения, облегчая разработку разнообразных приложений ИИ. По мере того как LLM и другие модели ИИ становятся все более мощными, все большее значение приобретают соображения, касающиеся этики ИИ, алгоритмической предвзятости и конфиденциальности данных. Чтобы получить больше информации о концепциях ИИ и сравнении моделей, изучи документациюUltralytics и страницы сравнения моделей.

Читать полностью