Зелёная проверка
Ссылка копируется в буфер обмена

Знакомство с ламой Мета 3

Недавно состоялся релиз Llama 3 от Meta, который был встречен сообществом ИИ с большим энтузиазмом. Давай узнаем больше о Llama 3 - последнем достижении Meta AI.

Когда мы составляли обзор новинок искусственного интеллекта (ИИ) первого квартала 2024 года, мы увидели, что LLM, или большие языковые модели, выпускаются направо и налево различными организациями. Продолжая эту тенденцию, 18 апреля 2024 года компания Meta выпустила Llama 3, современную LLM нового поколения с открытым исходным кодом. 

Ты можешь подумать: Это просто еще один LLM. Почему сообщество ИИ так возбуждено этим?

Хотя ты можешь точно настроить такие модели, как GPT-3 или Gemini, чтобы получить индивидуальный ответ, они не предлагают полной прозрачности в отношении своей внутренней работы, например, обучающих данных, параметров модели или алгоритмов. В отличие от них, Llama 3 от Meta более прозрачна: ее архитектура и весовые коэффициенты доступны для скачивания. Для сообщества ИИ это означает большую свободу для экспериментов.

В этой статье мы узнаем, что умеет Llama 3, как она появилась и как повлияла на сферу ИИ. Давай сразу же приступим к делу!

Эволюция моделей ламы Мета

Прежде чем мы погрузимся в Llama 3, давай вспомним ее предыдущие версии.

В феврале 2023 года Мета запустила Llama 1, которая выпускалась в четырех вариантах с параметрами от 7 миллиардов до 64 миллиардов. В машинном обучении под "параметрами" понимаются элементы модели, которые обучаются на основе обучающих данных. Из-за меньшего количества параметров Llama 1 иногда испытывала трудности с пониманием нюансов и давала непоследовательные ответы.

Вскоре после Llama 1, в июле 2023 года, Мета запустила Llama 2. Она была обучена на 2 триллионах токенов. Токен представляет собой фрагмент текста, например слово или часть слова, используемый в качестве основной единицы данных для обработки в модели. Модель также получила такие улучшения, как удвоенное контекстное окно в 4096 лексем для понимания более длинных отрывков и более 1 миллиона человеческих аннотаций для уменьшения количества ошибок. Несмотря на эти улучшения, Llama 2 по-прежнему требовала много вычислительной мощности, и Мета стремилась исправить это в Llama 3.

Представляем вам ламу Мета 3

Llama 3 поставляется с четырьмя вариантами, которые были обучены на ошеломляющих 15 триллионах лексем. Более 5% этих обучающих данных (около 800 миллионов лексем) представляли собой данные на 30 различных языках. Все варианты Llama 3 могут быть запущены на различных типах потребительского оборудования и имеют длину контекста 8k токенов. 

Рис. 1. Ллама 3 против Лламы 2.

Варианты модели представлены в двух размерах: 8B и 70B, обозначающие 8 миллиардов и 70 миллиардов параметров соответственно. Также есть две версии - базовая и инструкторская. "Base" означает стандартную предварительно обученную версию. "Instruct" - это тонко настроенная версия, оптимизированная под конкретные приложения или домены путем дополнительного обучения на соответствующих данных.

Это варианты модели Llama 3:

  • Meta-Llama-3-8b: Базовая модель 8B обеспечивает фундаментальные возможности ИИ и идеально подходит для общих задач, таких как разработка чат-ботов для обслуживания клиентов.
  • Meta-Llama-3-8b-instruct: Тонко настроенная версия модели 8B instruct, оптимизированная под конкретные задачи. Например, ее можно использовать для создания образовательных инструментов, объясняющих сложные темы.
  • Meta-Llama-3-70b: базовая модель 70B разработана для высокопроизводительных приложений искусственного интеллекта. Эта модель хорошо подойдет для таких приложений, как обработка обширной биомедицинской литературы для поиска лекарств.
  • Meta-Llama-3-70b-instruct: Эта версия доработана на основе модели 70B для высокоточных приложений, таких как анализ юридических или медицинских документов, где точность имеет решающее значение.

Архитектура модели Meta's Llama 3

Как и в случае с любыми другими достижениями Мета-ИИ, при разработке Llama 3 были приняты строгие меры контроля качества, чтобы сохранить целостность данных и минимизировать предвзятость. Так что конечный продукт - это мощная модель, к созданию которой подошли со всей ответственностью. 

Архитектура модели Llama 3 выделяется своей нацеленностью на эффективность и производительность в задачах обработки естественного языка. Построенная на основе фреймворка Transformer, она подчеркивает эффективность вычислений, особенно во время генерации текста, благодаря использованию архитектуры, основанной только на декодере. 

Модель генерирует выходные данные, основываясь исключительно на предшествующем контексте, без необходимости кодировать входные данные, что делает ее намного быстрее.

Рис 2. Архитектура ответственной модели Llama 3.

Модели Llama 3 оснащены токенизатором со словарным запасом в 128 тысяч лексем. Больший словарный запас означает, что модели могут лучше понимать и обрабатывать текст. Также в моделях теперь используется сгруппированное внимание к запросам (GQA) для повышения эффективности умозаключений. GQA - это техника, которую можно представить как прожектор, помогающий моделям сосредоточиться на релевантных частях входных данных, чтобы генерировать более быстрые и точные ответы.

Вот еще несколько интересных подробностей об архитектуре модели Llama 3:

  • Обработка документов с учетом границ: Llama 3 сохраняет четкость на границах документов, что является ключевым для таких задач, как подведение итогов.
  • Лучшее понимание кода: Обучающие данные Llama 3 включают в себя в четыре раза больше примеров кода, что повышает ее способности к кодированию.
  • Надежный контроль качества: Строгие меры, включая эвристические фильтры и удаление NSFW, обеспечивают целостность данных и минимизируют предвзятость.

Llama 3 меняет наш подход к обучению моделей

Чтобы обучить самые большие модели Llama 3, были объединены три типа распараллеливания: распараллеливание данных, распараллеливание моделей и конвейерное распараллеливание. 

Распараллеливание данных разделяет обучающие данные между несколькими GPU, а распараллеливание модели разделяет архитектуру модели, чтобы использовать вычислительную мощность каждого GPU. Конвейерное распараллеливание делит процесс обучения на последовательные этапы, оптимизируя вычисления и коммуникации.

Самая эффективная реализация достигла потрясающей производительности вычислений, превысив 400 TFLOPS на GPU при одновременном обучении на 16 000 GPU. Обучение проводилось на двух специально созданных кластерах GPU , каждый из которых состоял из 24 000 GPU. Эта значительная вычислительная инфраструктура обеспечила необходимую мощность для эффективного обучения крупномасштабных моделей Llama 3.

Чтобы максимально увеличить время работы GPU , был разработан новый передовой стек обучения, автоматизирующий обнаружение, обработку и обслуживание ошибок. Механизмы аппаратной надежности и обнаружения ошибок были значительно улучшены, чтобы снизить риски молчаливого повреждения данных. Также были разработаны новые масштабируемые системы хранения данных, чтобы уменьшить накладные расходы на создание контрольных точек и откат. 

Эти улучшения привели к тому, что общее время тренировки стало эффективнее более чем на 95%. В совокупности они увеличили эффективность обучения Llama 3 примерно в три раза по сравнению с Llama 2. Такая эффективность не просто впечатляет, она открывает новые возможности для методов обучения ИИ. 

Открываем двери вместе с ламой 3

Поскольку Llama 3 имеет открытый исходный код, исследователи и студенты могут изучать ее код, проводить эксперименты и участвовать в дискуссиях об этических проблемах и предубеждениях. Однако Llama 3 предназначена не только для академической аудитории. Она набирает обороты и в практическом применении. Она становится основой чат-интерфейса Meta AI, легко интегрируясь в такие платформы, как Facebook, Instagram, WhatsApp и Messenger. С помощью Meta AI пользователи могут вести беседы на естественном языке, получать доступ к персонализированным рекомендациям, выполнять задания и легко общаться с другими людьми.

Рис. 3. Мета ИИ: работает на базе Llama 3.

Сравни Llama 3 с другими LLM

Llama 3 демонстрирует исключительно высокие результаты в нескольких ключевых бенчмарках, оценивающих способности к пониманию сложного языка и рассуждениям. Вот некоторые из бенчмарков, которые проверяют различные аспекты возможностей Llama 3:

  • Massive Multitask Language Understanding (MMLU) - измеряет свои знания в различных доменах. 
  • General Purpose Question Answering (GPQA) - оценивает способность модели генерировать связные и правильные ответы на широкий спектр вопросов общего характера.
  • HumanEval - фокусируется на задачах кодирования и решения проблем, проверяя способность модели генерировать функциональный программный код и решать алгоритмические задачи.

Выдающиеся результаты Llama 3 в этих тестах явно выделяют ее на фоне таких конкурентов, как Google'Gemma 7B', Mistral 'Mistral 7B' и Anthropic'Claude 3 Sonnet'. Согласно опубликованной статистике, особенно модель 70B, Llama 3 превосходит эти модели во всех вышеперечисленных бенчмарках.

Рис. 4. Сравнение Llama 3 с другими LLM.

Meta Llama 3 становится широкодоступной

Meta расширяет сферу применения Llama 3, делая ее доступной на различных платформах как для обычных пользователей, так и для разработчиков. Для обычных пользователей Llama 3 интегрирована в такие популярные платформы Meta, как WhatsApp, Instagram, Facebook и Messenger. Пользователи могут получить доступ к таким продвинутым функциям, как поиск в реальном времени и возможность генерировать креативный контент прямо в этих приложениях. 

Llama 3 также внедряется в носимые технологии, такие как смарт-очки Ray-Ban Meta и VR-гарнитура Meta Quest, для получения интерактивного опыта.

Llama 3 доступна на различных платформах для разработчиков, включая AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM и Snowflake. Также ты можешь получить доступ к этим моделям прямо из Meta. Широкий выбор вариантов позволяет разработчикам легко интегрировать эти продвинутые возможности ИИ-моделей в свои проекты, независимо от того, предпочитают ли они работать напрямую с Meta или через другие популярные платформы.

Вынос

Достижения машинного обучения продолжают трансформировать то, как мы каждый день взаимодействуем с технологиями. Llama 3 от Meta показывает, что LLM больше не просто генерируют текст. LLM решают сложные задачи и работают с несколькими языками. В целом Llama 3 делает ИИ более адаптируемым и доступным, чем когда-либо. Забегая вперед, скажу, что запланированные обновления Llama 3 обещают еще больше возможностей, таких как работа с несколькими моделями и понимание больших контекстов. 

Загляни в наш репозиторий GitHub и присоединись к нашему сообществу, чтобы узнать больше об искусственном интеллекте. Заходи на страницы наших решений, чтобы узнать, как ИИ применяется в таких областях, как производство и сельское хозяйство.

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения