Недавно состоялся релиз Llama 3 от Meta, который был встречен сообществом ИИ с большим энтузиазмом. Давай узнаем больше о Llama 3 - последнем достижении Meta AI.
Когда мы составляли обзор новинок искусственного интеллекта (ИИ) первого квартала 2024 года, мы увидели, что LLM, или большие языковые модели, выпускаются направо и налево различными организациями. Продолжая эту тенденцию, 18 апреля 2024 года компания Meta выпустила Llama 3, современную LLM нового поколения с открытым исходным кодом.
Ты можешь подумать: Это просто еще один LLM. Почему сообщество ИИ так возбуждено этим?
Хотя ты можешь точно настроить такие модели, как GPT-3 или Gemini, чтобы получить индивидуальный ответ, они не предлагают полной прозрачности в отношении своей внутренней работы, например, обучающих данных, параметров модели или алгоритмов. В отличие от них, Llama 3 от Meta более прозрачна: ее архитектура и весовые коэффициенты доступны для скачивания. Для сообщества ИИ это означает большую свободу для экспериментов.
В этой статье мы узнаем, что умеет Llama 3, как она появилась и как повлияла на сферу ИИ. Давай сразу же приступим к делу!
Прежде чем мы погрузимся в Llama 3, давай вспомним ее предыдущие версии.
В феврале 2023 года Мета запустила Llama 1, которая выпускалась в четырех вариантах с параметрами от 7 миллиардов до 64 миллиардов. В машинном обучении под "параметрами" понимаются элементы модели, которые обучаются на основе обучающих данных. Из-за меньшего количества параметров Llama 1 иногда испытывала трудности с пониманием нюансов и давала непоследовательные ответы.
Вскоре после Llama 1, в июле 2023 года, Мета запустила Llama 2. Она была обучена на 2 триллионах токенов. Токен представляет собой фрагмент текста, например слово или часть слова, используемый в качестве основной единицы данных для обработки в модели. Модель также получила такие улучшения, как удвоенное контекстное окно в 4096 токенов для понимания более длинных отрывков и более 1 миллиона человеческих аннотаций для уменьшения количества ошибок. Несмотря на эти улучшения, Llama 2 по-прежнему требовала много вычислительной мощности, и Мета стремилась исправить это в Lama 3.
Llama 3 поставляется с четырьмя вариантами, которые были обучены на ошеломляющих 15 триллионах лексем. Более 5% этих обучающих данных (около 800 миллионов лексем) представляли собой данные на 30 различных языках. Все варианты Llama 3 могут быть запущены на различных типах потребительского оборудования и имеют длину контекста 8k токенов.
Варианты модели представлены в двух размерах: 8B и 70B, обозначающие 8 миллиардов и 70 миллиардов параметров соответственно. Также есть две версии - базовая и инструкторская. "Base" означает стандартную предварительно обученную версию. "Instruct" - это тонко настроенная версия, оптимизированная под конкретные приложения или домены путем дополнительного обучения на соответствующих данных.
Это варианты модели Llama 3:
Как и в случае с любыми другими достижениями Мета-ИИ, при разработке Llama 3 были приняты строгие меры контроля качества, чтобы сохранить целостность данных и минимизировать предвзятость. Так что конечный продукт - это мощная модель, к созданию которой подошли со всей ответственностью.
Архитектура модели Llama 3 выделяется своей нацеленностью на эффективность и производительность в задачах обработки естественного языка. Построенная на основе фреймворка Transformer, она подчеркивает эффективность вычислений, особенно во время генерации текста, благодаря использованию архитектуры, основанной только на декодере.
Модель генерирует выходные данные, основываясь исключительно на предшествующем контексте, без необходимости кодировать входные данные, что делает ее намного быстрее.
Модели Llama 3 оснащены токенизатором со словарным запасом в 128 тысяч лексем. Больший словарный запас означает, что модели могут лучше понимать и обрабатывать текст. Также в моделях теперь используется сгруппированное внимание к запросам (GQA) для повышения эффективности умозаключений. GQA - это техника, которую можно представить как прожектор, помогающий моделям сосредоточиться на релевантных частях входных данных, чтобы генерировать более быстрые и точные ответы.
Вот еще несколько интересных подробностей об архитектуре модели Llama 3:
Чтобы обучить самые большие модели Llama 3, были объединены три типа распараллеливания: распараллеливание данных, распараллеливание моделей и конвейерное распараллеливание.
Распараллеливание данных разделяет обучающие данные между несколькими GPU, а распараллеливание модели разделяет архитектуру модели, чтобы использовать вычислительную мощность каждого GPU. Конвейерное распараллеливание делит процесс обучения на последовательные этапы, оптимизируя вычисления и коммуникации.
Самая эффективная реализация достигла потрясающей производительности вычислений, превысив 400 TFLOPS на GPU при одновременном обучении на 16 000 GPU. Обучение проводилось на двух специально созданных кластерах GPU , каждый из которых состоял из 24 000 GPU. Эта значительная вычислительная инфраструктура обеспечила необходимую мощность для эффективного обучения крупномасштабных моделей Llama 3.
Чтобы максимально увеличить время работы GPU , был разработан новый передовой стек обучения, автоматизирующий обнаружение, обработку и обслуживание ошибок. Механизмы аппаратной надежности и обнаружения ошибок были значительно улучшены, чтобы снизить риски молчаливого повреждения данных. Также были разработаны новые масштабируемые системы хранения данных, чтобы уменьшить накладные расходы на создание контрольных точек и откат.
Эти улучшения привели к тому, что общее время тренировки стало эффективнее более чем на 95%. В совокупности они увеличили эффективность обучения Llama 3 примерно в три раза по сравнению с Llama 2. Такая эффективность не просто впечатляет, она открывает новые возможности для методов обучения ИИ.
Поскольку Llama 3 имеет открытый исходный код, исследователи и студенты могут изучать ее код, проводить эксперименты и участвовать в дискуссиях об этических проблемах и предубеждениях. Однако Llama 3 предназначена не только для академической аудитории. Она набирает обороты и в практическом применении. Она становится основой чат-интерфейса Meta AI, легко интегрируясь в такие платформы, как Facebook, Instagram, WhatsApp и Messenger. С помощью Meta AI пользователи могут вести беседы на естественном языке, получать доступ к персонализированным рекомендациям, выполнять задания и легко общаться с другими людьми.
Llama 3 демонстрирует исключительно высокие результаты в нескольких ключевых бенчмарках, оценивающих способности к пониманию сложного языка и рассуждениям. Вот некоторые из бенчмарков, которые проверяют различные аспекты возможностей Llama 3:
Выдающиеся результаты Llama 3 в этих тестах явно выделяют ее на фоне таких конкурентов, как Google'Gemma 7B', Mistral 'Mistral 7B' и Anthropic'Claude 3 Sonnet'. Согласно опубликованной статистике, особенно модель 70B, Llama 3 превосходит эти модели во всех вышеперечисленных бенчмарках.
Meta расширяет сферу применения Llama 3, делая ее доступной на различных платформах как для обычных пользователей, так и для разработчиков. Для обычных пользователей Llama 3 интегрирована в такие популярные платформы Meta, как WhatsApp, Instagram, Facebook и Messenger. Пользователи могут получить доступ к таким продвинутым функциям, как поиск в реальном времени и возможность генерировать креативный контент прямо в этих приложениях.
Llama 3 также внедряется в носимые технологии, такие как смарт-очки Ray-Ban Meta и VR-гарнитура Meta Quest, для получения интерактивного опыта.
Llama 3 доступна на различных платформах для разработчиков, включая AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM и Snowflake. Также ты можешь получить доступ к этим моделям прямо из Meta. Широкий выбор вариантов позволяет разработчикам легко интегрировать эти продвинутые возможности ИИ-моделей в свои проекты, независимо от того, предпочитают ли они работать напрямую с Meta или через другие популярные платформы.
Достижения машинного обучения продолжают трансформировать то, как мы каждый день взаимодействуем с технологиями. Llama 3 от Meta показывает, что LLM больше не просто генерируют текст. LLM решают сложные задачи и работают с несколькими языками. В целом Llama 3 делает ИИ более адаптируемым и доступным, чем когда-либо. Забегая вперед, скажу, что запланированные обновления Llama 3 обещают еще больше возможностей, таких как работа с несколькими моделями и понимание больших контекстов.
Загляни в наш репозиторий GitHub и присоединись к нашему сообществу, чтобы узнать больше об искусственном интеллекте. Заходи на страницы наших решений, чтобы узнать, как ИИ применяется в таких областях, как производство и сельское хозяйство.
Начни свое путешествие с будущим машинного обучения