Зелёная проверка
Ссылка копируется в буфер обмена

xAI запускает Grok 2.0 с интеграцией FLUX.1

Узнай о Grok 2.0 от xAI Элона Маска и его интеграции с FLUX.1. Изучи такие детали, как особенности, бенчмарки, сравнение моделей и то, как его опробовать.

14 августа компания Элона Маска, специализирующаяся на искусственном интеллекте, xAI, объявила о выпуске Grok 2.0, чат-бота, интегрированного с FLUX.1, моделью генерации изображений от Black Forest Labs, на сайте X (бывший Twitter). FLUX.1 - это продвинутая модель, способная создавать очень реалистичные изображения, включая те, которые могут быть восприняты как чувствительные или потенциально вводящие в заблуждение.

В отличие от многих популярных генераторов изображений, которые блокируют или фильтруют определенные типы контента, например, насильственные, откровенные или обманчивые изображения, FLUX.1 имеет меньше ограничений. Некоторые видят в этом победу для свободы слова, другие впечатлены его продвинутыми возможностями. Однако есть и опасения по поводу этических последствий и потенциального злоупотребления такой мощной технологией. Давай окунемся в эту тему и узнаем, что дает Grok 2.0, чем выделяется FLUX.1 и как ты сам можешь попробовать эти инновационные инструменты.

Знакомство с FLUX.1: Генератор изображений искусственного интеллекта

FLUX.1 - продвинутый генератор изображений ИИ с открытым исходным кодом, запущенный Black Forest Labs 1 августа 2024 года. Black Forest Labs - это стартап, основанный бывшими инженерами Stability AI , известными своей работой над широко используемыми моделями Stable Diffusion. FLUX.1 призван напрямую конкурировать с такими признанными игроками, как MidJourney и DALL-E 3, и привносит новый уровень качества и гибкости в генерируемые ИИ изображения. Например, FLUX.1 отлично справляется со сложными деталями, с которыми не справляются многие модели, например, генерирует реалистично выглядящие человеческие руки или читаемый текст на вывесках.

Black Forest Labs предлагает три разных вариации FLUX.1, которые можно использовать для разных целей. Вот более подробный взгляд на эти вариации:

  • FLUX.1 [pro]: Флагманская модель предназначена для коммерческого использования и рассчитана на получение результатов высочайшего качества.
  • FLUX.1 [dev]: Версия с открытым весом, которая доступна для некоммерческого использования. Она идеально подходит для исследований и разработок.
  • FLUX.1 [schnell]: Оптимизированная по скорости модель под лицензией Apache 2.0, идеально подходящая для личных проектов и локальных разработок, где требуется быстрая генерация изображений.
Рис. 1. Понимание вариаций FLUX.1

Как работает FLUX.1?

В FLUX.1 используется архитектура гибридной модели, которая сочетает в себе трансформаторные и диффузионные техники, а размер модели составляет 12 миллиардов параметров (настраиваемые части нейронной сети, которые помогают ей обучаться на данных). Трансформаторы - это тип нейронных сетей, которые могут понимать такие последовательности, как текст и изображения, распознавая закономерности и взаимосвязи внутри данных. Диффузионные модели работают, начиная со случайного шума и совершенствуя его шаг за шагом, пока не сформируется четкий образ. Объединив эти два подхода, FLUX.1 может использовать сильные стороны обеих архитектур для создания высококачественных изображений, соответствующих заданным текстовым подсказкам. 

FLUX.1 также использует такие продвинутые техники, как поворотные позиционные вкрапления и согласование потоков. Вращающиеся позиционные вкрапления помогают модели понять порядок и расположение элементов в тексте и изображениях, чтобы убедиться, что все вместе имеет смысл. Согласование потоков - это техника, используемая в генеративных моделях, чтобы сделать процесс создания изображений из случайного шума более плавным и эффективным.

Бенчмаркинг FLUX.1

Если сравнивать FLUX.1 с другими популярными моделями, такими как MidJourney v6.0, DALL-E 3 (HD) и SD3-Ultra, то FLUX.1 устанавливает новую планку в создании AI-изображений. Он превосходит всех в таких ключевых областях, как качество изображения, умение следовать подсказкам, разнообразие выходных данных и поддержка различных размеров и соотношений сторон. Модели FLUX.1 [pro] и [dev] выделяются тем, что создают высококачественные изображения, которые точно соответствуют желаниям пользователей, и эти модели часто превосходят другие модели в предоставлении четких и точных результатов. С другой стороны, FLUX.1 [schnell] - одна из самых продвинутых моделей для быстрой генерации изображений и работает лучше, чем более сложные модели вроде MidJourney.

Рис. 2. Сравнение Midjourney v6 и FLUX.1[pro]

Grok 2.0: Последние достижения Элона Маска в области xAI

Grok 2.0 - это новейшая большая языковая модель, разработанная компанией Элона Маска по созданию искусственного интеллекта xAI. Выпущенная в августе 2024 года, Grok 2.0 доступна пользователям X Premium и Premium+ на платформе X (бывший Twitter). Кроме того, вскоре она будет доступна разработчикам и предприятиям через корпоративный API.

Рис. 3. Пример того, как Grok 2.0 объясняет мем.

Grok 2.0 построен на архитектуре трансформера, и по сравнению со своей старой версией, Grok 1.5, он более приспособлен к выполнению инструкций, рассуждению над проблемами и предоставлению точной информации. Чатбот был протестирован в сравнении с другими ведущими моделями ИИ и показал впечатляющие результаты. Grok 2.0 превзошел такие популярные модели, как GPT-4 Turbo, Claude 3.5 Sonnet и Llama 3 405B, в тестах, включающих научные вопросы для выпускников, общие знания и сложные математические задачи. Grok 2.0 также хорошо справляется с задачами, требующими визуального понимания, и показал высокие результаты в визуальных математических рассуждениях и ответах на вопросы на основе документов.

Связь между Grok 2.0 и FLUX.1

FLUX.1 был интегрирован в Grok 2.0, чтобы обеспечить бесшовное сочетание генерации текста и изображений. Хотя объединение различных технологий сегодня является обычным делом для улучшения функциональности и пользовательского опыта, именно эта интеграция привлекла к себе большое внимание. 

С одной стороны, интеграция FLUX.1 была высоко оценена некоторыми за то, что она добавила "веселый" элемент в Grok 2.0. Пользователи могут экспериментировать с созданием креативных и, порой, резких изображений - то, что было бы ограничено или жестко модерировалось другими инструментами ИИ. Например, пользователи делились на X изображениями, на которых общественные деятели были изображены в неуместных или спорных ситуациях, утверждая, что это поддерживает понятие свободы слова.

С другой стороны, критики утверждают, что отсутствие четких этических рекомендаций в FLUX.1 может привести к серьезным этическим и социальным проблемам, таким как дезинформация и deepfakes. Некоторые беспокоятся, что сочетание мощной, нецензурной генерации текста и изображений на одной из самых влиятельных социальных медиаплатформ может усилить распространение дезинформации.

Grok 2.0 и его неограниченный подход

Дело не только в генерации изображений. Сама Grok 2.0 более ограничена, чем другие инструменты ИИ, с которыми мы недавно познакомились, например ChatGPT. Отсутствие модерации позволяет модели раздвигать границы так, что одни находят это захватывающим, а другие - тревожным.

Например, было замечено, что Grok 2.0 генерирует текстовый контент, который легко может быть интерпретирован как ложные или вводящие в заблуждение новости. В недавнем инциденте Grok 2.0 создал ложную историю о том, что игрок НБА Клэй Томпсон якобы совершил "серию вандализма с кирпичами". ИИ-чатбот неправильно понял баскетбольный термин "бросать кирпичи", который просто обозначает промахи. Вместо этого Grok 2.0 воспринял его буквально и сфабриковал историю о Томпсоне, совершающем акты вандализма с помощью настоящих кирпичей. Пост быстро набрал обороты на Х, а некоторые пользователи даже добавили фальшивые аккаунты жертв, чтобы подогреть дезинформацию.

Рис 4. Пост о Х, который был написан Гроком 2.

Несмотря на эти опасения, некоторые пользователи высоко оценивают позицию Grok 2.0 в отношении "свободы слова". Они утверждают, что она позволяет вести более открытые беседы и давать творческую свободу, чем модели ИИ с жесткой модерацией. Они видят в Grok 2.0 противодействие тому, что они воспринимают как чрезмерно осторожный, "проснувшийся" ИИ, который ограничивает обсуждение деликатных тем. Для этих пользователей Grok 2.0 предлагает платформу, на которой они чувствуют себя менее скованными общественными нормами.

Попробуй FLUX.1 и Grok 2.0 сам

Есть несколько различных вариантов, связанных с опробованием FLUX.1 и Grok 2.0. Доступ к FLUX.1 можно получить непосредственно через платформы искусственного интеллекта, такие как Hugging Face, Replicate и Fal.ai. Тем временем Grok 2.0 доступен только подписчикам X Premium и Premium+.

Основные выводы

FLUX.1 и Grok 2.0 расширяют границы искусственного интеллекта и вызывают глубокие дискуссии. FLUX.1 установил новый стандарт в области изображений, создаваемых ИИ, благодаря своей способности создавать высокодетализированные и реалистичные картинки. Grok 2.0 использует FLUX.1 для расширения своих возможностей, выходящих за рамки простого текстового взаимодействия. С одной стороны, энтузиасты в восторге от творческой свободы и бесцензурного исследования, которые предлагают эти инструменты. С другой стороны, критики бьют тревогу по поводу рисков дезинформации, глубоких подделок и этических последствий таких нерегулируемых возможностей на такой влиятельной платформе, как X. По мере развития FLUX.1 и Grok 2.0 они оказываются в центре дебатов о свободе, творчестве и ответственности в цифровую эпоху - дебатов, которые, вероятно, будут определять будущее ИИ на долгие годы вперед.

Чтобы узнать больше об Ultralytics, загляни в наш репозиторий на GitHub, присоединяйся к нашему сообществу и изучи наши новейшие решения в области искусственного интеллекта в таких отраслях, как здравоохранение и производство! 🚀

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения