ИИ 2024: Генеративная волна ИИ

Кажется, что AI-сообщество почти ежедневно попадает в заголовки новостей. Первые несколько месяцев 2024 года были захватывающими и полными новых AI-инноваций. От мощных новых больших языковых моделей до имплантатов в мозг человека, 2024 год обещает быть удивительным.

Мы видим, как ИИ преобразует отрасли, делая информацию более доступной и даже делая первые шаги к слиянию нашего разума с машинами. Давайте вернемся в первый квартал 2024 года и внимательнее посмотрим на прогресс, достигнутый в области ИИ всего за несколько месяцев.

LLM в тренде

Большие языковые модели (LLM), предназначенные для понимания, генерации и манипулирования человеческим языком на основе огромных объемов текстовых данных, заняли центральное место в первом квартале 2024 года. Многие крупные технологические компании выпустили свои собственные модели LLM, каждая с уникальными возможностями. Невероятный успех предыдущих LLM, таких как GPT-3, вдохновил эту тенденцию. Вот некоторые из наиболее заметных выпусков LLM начала 2024 года.

Клод Anthropic 3

Anthropic выпустила Claude 3 14 марта 2024 года. Модель Claude 3 выпускается в трех версиях: Opus, Sonnet и Haiku, каждая из которых предназначена для разных рынков и целей. Haiku, самая быстрая модель, оптимизирована для быстрых, базовых ответов. Sonnet балансирует между скоростью и интеллектуальностью и ориентирована на корпоративные приложения. Opus, самая продвинутая версия, обеспечивает непревзойденный интеллект и логику и идеально подходит для решения сложных задач и достижения наивысших показателей.

Claude 3 обладает множеством передовых функций и улучшений:

Улучшенные многоязычные разговоры: Улучшены возможности для языков, включая испанский, японский и французский.
‍
Расширенные возможности Vision: Возможность обработки различных визуальных форматов.
‍
Минимизация отказов: демонстрирует больше понимания с меньшим количеством ненужных отказов, что указывает на улучшенное понимание контекста.
‍
Расширенное контекстное окно: предлагает контекстное окно размером 200K, но способно обрабатывать входные данные объемом более 1 миллиона токенов в зависимости от потребностей клиента.

__wf_reserved_inherit — Рис. 1. Claude 3 обладает большей контекстной осведомленностью, чем предыдущие версии.

‍

DBRX от Databricks

Databricks DBRX — это открытая универсальная большая языковая модель (LLM), выпущенная компанией Databricks 27 марта 2024 года. DBRX демонстрирует отличные результаты по различным бенчмаркам, включая понимание языка, программирование и математику. Она превосходит другие известные модели, будучи примерно на 40% меньше аналогичных моделей.

‍

DBRX была обучена с использованием предсказания следующего токена с детальной архитектурой mixture-of-experts (MoE), и именно поэтому мы видим значительные улучшения в производительности обучения и логического вывода. Ее архитектура позволяет модели более точно предсказывать следующее слово в последовательности, обращаясь к разнообразному набору специализированных подмоделей («экспертов»). Эти подмодели хорошо справляются с различными типами информации или задач.

Gemini 1.5 от Google

15 февраля 2024 года Google представила Gemini 1.5 - вычислительно эффективную мультимодальную модель ИИ, способную анализировать обширные текстовые, видео- и аудиоданные. Последняя модель является более совершенной с точки зрения производительности, эффективности и возможностей. Ключевой особенностью Gemini 1.5 является прорыв в понимании длинных контекстов. Модель способна стабильно обрабатывать до 1 миллиона токенов. Возможности Gemini 1.5 также обусловлены новой архитектурой на основе MoE.

‍

Вот некоторые из наиболее интересных функций Gemini 1.5:

Улучшенная обработка данных: позволяет напрямую загружать большие PDF-файлы, репозитории кода или длинные видео в качестве подсказок. Модель может рассуждать, используя различные типы данных, и выводить текст.
‍
Множественная загрузка файлов и запросы: теперь разработчики могут загружать несколько файлов и задавать вопросы.
‍
Может использоваться для различных задач: он оптимизирован для масштабирования в различных задачах и демонстрирует улучшения в таких областях, как математика, наука, рассуждения, многоязычие, понимание видео и код.

Потрясающие визуальные эффекты от ИИ

В первом квартале 2024 года появились генеративные модели ИИ, способные создавать настолько реалистичные визуальные эффекты, что это вызвало дебаты о будущем социальных сетей и прогрессе ИИ. Давайте углубимся в модели, вызывающие дискуссии.

Sora от OpenAI

Компания OpenAI, создатель ChatGPT, 15 февраля 2024 года анонсировала новейшую модель глубокого обучения "текст-видео" под названием Sora. Sora - это генератор видео из текста в текст, способный создавать минутные видеоролики с высоким визуальным качеством на основе текстовых подсказок пользователя.

Например, взгляните на следующий запрос.

“Великолепно отрисованный мир кораллового рифа из бумаги, изобилующий красочными рыбами и морскими существами.”

И вот кадр из выходного видео.

‍

Архитектура Sora делает это возможным благодаря сочетанию диффузионных моделей для генерации текстур и моделей-трансформеров для структурной когерентности. На данный момент доступ к Sora предоставлен группам Red Team и избранной группе художников, дизайнеров и кинематографистов, чтобы понять риски и получить обратную связь.

Stability AIдиффузия Stability AI3

Компания Stability AI объявила о выходе Stable Diffusion 3, модели генерации текста в изображение, 22 февраля 2024 года. Модель сочетает в себе архитектуру диффузионного трансформатора и согласование потоков. Технический документ еще не опубликован, но есть несколько ключевых особенностей, на которые стоит обратить внимание.

‍

Последняя модель Stable Diffusion предлагает улучшенную производительность, качество изображения и точность при создании изображений с несколькими объектами. Stable Diffusion 3 также предложит множество моделей с диапазоном от 800 миллионов до 8 миллиардов параметров. Это позволит пользователям выбирать в зависимости от их конкретных потребностей в масштабируемости и детализации.

Люмьер от Google

23 января 2024 года Google запустила Lumiere, модель распространения текста в видео. Lumiere использует архитектуру под названием Space-Time-U-Net, или сокращенно STUNet. Она помогает Lumiere понять, где и как движутся объекты в видео. Благодаря этому он может генерировать плавные и реалистичные видео.

‍

Благодаря возможности генерировать 80 кадров на видео, Lumiere расширяет границы и устанавливает новые стандарты качества видео в сфере ИИ. Вот некоторые из функций Lumiere:

Изображение в видео: начиная с изображения и подсказки, Lumiere может анимировать изображения в видео.
‍
Стилизованная генерация: Lumiere может создавать видео в определенных стилях, используя одно эталонное изображение.
‍
Синемаграфы: Lumiere может анимировать определенные области изображения для создания динамичных сцен, например, когда конкретный объект движется, а остальная часть сцены остается статичной.
‍
Реставрация видео: позволяет изменять части видео, например, менять одежду людей в нем или изменять детали фона.

Кажется, будущее уже здесь

Начало 2024 года также принесло множество AI-инноваций, которые кажутся чем-то из научно-фантастического фильма. Сейчас ведется работа над вещами, которые раньше мы бы назвали невозможными. Благодаря следующим открытиям будущее уже не кажется таким далеким.

Neuralink Илона Маска

Компания Neuralink Илона Маска 29 января 2024 года успешно имплантировала свой беспроводной мозговой чип человеку. Это огромный шаг к подключению человеческого мозга к компьютерам. Илон Маск поделился, что первый продукт Neuralink под названием «Телепатия» находится в разработке.

‍

Цель состоит в том, чтобы позволить пользователям, особенно тем, кто потерял функциональность конечностей, без усилий управлять устройствами посредством своих мыслей. Потенциальные применения выходят за рамки удобства. Илон Маск представляет будущее, в котором люди с параличом смогут легко общаться.

HoloTile Floor от Disney

18 января 2024 года Walt Disney Imagineering представила HoloTile Floor. Ее назвали первым в мире многопользовательским всенаправленным беговым полом.

‍

Он может перемещаться под любым человеком или объектом, как телекинез, для создания эффекта полного погружения в виртуальную и дополненную реальность. Вы можете ходить в любом направлении и избегать столкновений, находясь на нем. Пол HoloTile от Disney также можно установить на театральных сценах для танцев и передвижения творческими способами.

Apple Vision Pro

2 февраля 2024 года долгожданная гарнитура Vision Pro от Apple вышла на рынок. Она обладает множеством функций и приложений, призванных переосмыслить опыт виртуальной и дополненной реальности. Гарнитура Vision Pro предназначена для широкой аудитории, сочетая в себе развлечения, производительность и пространственные вычисления. Apple с гордостью объявила, что на момент запуска для Vision Pro было оптимизировано более 600 приложений, от инструментов повышения производительности до игровых и развлекательных сервисов.

Devin от Cognition

12 марта 2024 года Cognition выпустила помощника по разработке программного обеспечения под названием Devin. Devin — это первая в мире попытка создания автономного ИИ-инженера-программиста. В отличие от традиционных помощников по кодированию, которые предлагают предложения или выполняют определенные задачи, Devin предназначен для управления целыми проектами разработки программного обеспечения от первоначальной концепции до завершения.

Он может изучать новые технологии, создавать и развертывать полноценные приложения, находить и исправлять ошибки, обучать собственные модели, вносить вклад в проекты с открытым исходным кодом и производственные кодовые базы и даже брать на себя реальные задачи по разработке с таких сайтов, как Upwork.

‍

Devin был оценен на SWE-bench, сложном бенчмарке, который предлагает агентам решать реальные проблемы GitHub, обнаруженные в проектах с открытым исходным кодом, таких как Django и scikit-learn. Он правильно решил 13,86% проблем от начала до конца, по сравнению с предыдущим уровнем в 1,96%.

Почетные упоминания

Произошло так много всего, что охватить все в этой статье невозможно. Но вот еще несколько достойных упоминаний.

LATTE3D от NVIDIA, анонсированная 21 марта 2024 года, - это модель ИИ "текст в 3D", которая мгновенно создает 3D-представления из текстовых подсказок.
‍
Новый генератор текста в видео от Midjourney, анонсированный генеральным директором Дэвидом Хольцем, начал обучение в январе и, как ожидается, скоро будет запущен.
‍
Компания Lenovo, продвигая революцию AI PC, выпустила ThinkBook 13x с технологией E Ink Prism и высокопроизводительные AI-ноутбуки 8 января 2024 года.

Будьте в курсе тенденций в области ИИ вместе с нами!

Начало 2024 года ознаменовалось революционными достижениями в области искусственного интеллекта и многими крупными технологическими вехами. Но это только начало того, на что способен ИИ. Если вы хотите узнать больше о последних разработках в области ИИ, Ultralytics поможет вам в этом.

Посетите наш репозиторий GitHub, чтобы ознакомиться с нашими последними разработками в области компьютерного зрения и ИИ. Вы также можете просмотреть страницы наших решений, чтобы узнать, как ИИ используется в таких отраслях, как производство и здравоохранение.

2024 год начинается с волны генеративного ИИ

LLM в тренде

Клод Anthropic 3

DBRX от Databricks

Gemini 1.5 от Google

Потрясающие визуальные эффекты от ИИ

Sora от OpenAI

Stability AIдиффузия Stability AI3

Люмьер от Google

Кажется, будущее уже здесь

Neuralink Илона Маска

HoloTile Floor от Disney

Apple Vision Pro

Devin от Cognition

Почетные упоминания

Будьте в курсе тенденций в области ИИ вместе с нами!

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее
ИИ вместе!

2024 год начинается с волны генеративного ИИ

LLM в тренде

Клод Anthropic 3

DBRX от Databricks

Gemini 1.5 от Google

Потрясающие визуальные эффекты от ИИ

Sora от OpenAI

Stability AIдиффузия Stability AI3

Люмьер от Google

Кажется, будущее уже здесь

Neuralink Илона Маска

HoloTile Floor от Disney

Apple Vision Pro

Devin от Cognition

Почетные упоминания

Будьте в курсе тенденций в области ИИ вместе с нами!

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее ИИ вместе!

Давайте строить будущее
ИИ вместе!