Verificação verde
Link copiado para a área de transferência

2024 começa com uma onda de IA generativa

Olha para as inovações excitantes da IA do primeiro trimestre de 2024. Abordaremos avanços como o Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.

A comunidade de IA parece ganhar as manchetes quase diariamente. Os primeiros meses de 2024 foram emocionantes e repletos de inovações em IA. Desde novos e poderosos modelos de linguagem de grande porte até implantes cerebrais humanos, 2024 parece ser incrível.

Estamos vendo a IA transformar as indústrias, tornando a informação mais acessível e até dando os primeiros passos para fundir as nossas mentes com as máquinas. Vamos retroceder no primeiro trimestre de 2024 e observar mais de perto o progresso alcançado na IA em apenas alguns meses.

LLMs estão em alta

Grandes modelos de linguagem (LLMs), projetados para compreender, gerar e manipular a linguagem humana com base em grandes quantidades de dados de texto, ocuparam o centro das atenções no primeiro trimestre de 2024. Muitas grandes empresas de tecnologia lançaram seus próprios modelos LLM, cada um com capacidades únicas. O incrível sucesso de LLMs anteriores como o GPT-3 inspirou essa tendência. Aqui estão alguns dos lançamentos LLM mais notáveis do início de 2024.

Anthropic Cláudio 3

Anthropic lançou Claude 3 em 14 de março de 2024. O modelo Claude 3 vem em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. Haiku, o modelo mais rápido, é otimizado para respostas básicas e rápidas. O Sonnet equilibra velocidade com inteligência e é voltado para aplicações empresariais. Opus, a versão mais avançada, oferece inteligência e raciocínio incomparáveis e é ideal para tarefas complexas e para alcançar benchmarks de alto nível.

Claude 3 possui muitos recursos e melhorias avançadas:

  • Conversas multilíngues aprimoradas: habilidades aprimoradas em idiomas como espanhol, japonês e francês.
  • Recursos avançados de visão: Capaz de lidar com vários formatos visuais
  • Recusas minimizadas: mostra mais compreensão com menos recusas desnecessárias, indicando melhor compreensão contextual
  • Janela de contexto estendida: oferece uma janela de contexto de 200K, mas é capaz de processar entradas de mais de 1 milhão de tokens com base nas necessidades do cliente.
Fig 1. Claude 3 tem mais consciência contextual do que as versões anteriores.

DBRX dos Databricks

Databricks DBRX é um LLM aberto e de uso geral lançado pela Databricks em 27 de março de 2024. DBRX se sai muito bem em vários benchmarks, incluindo compreensão de linguagem, programação e matemática. Ele supera outros modelos estabelecidos e é aproximadamente 40% menor que modelos similares.

Fig 2. Comparação do DBRX com outros modelos.

O DBRX foi treinado usando a previsão do próximo token com uma arquitetura refinada de mistura de especialistas (MoE), e é por isso que podemos ver melhorias significativas no treinamento e no desempenho de inferência. Sua arquitetura permite que o modelo preveja a próxima palavra em uma sequência com mais precisão, consultando um conjunto diversificado de submodelos especializados (os “especialistas”). Esses submodelos são bons para lidar com diferentes tipos de informações ou tarefas.

GoogleGemini 1.5

Google apresentou o Gemini 1.5, um modelo de IA multimodal e eficiente em termos de computação que pode analisar dados extensos de texto, vídeo e áudio, a 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Uma das principais características do Gemini 1.5 é o seu avanço na compreensão de contextos longos. O modelo é capaz de processar até 1 milhão de tokens de forma consistente. As capacidades do Gemini 1.5 também se devem a uma nova arquitetura baseada em MoE.

Fig 3. Comparando comprimentos de contexto de LLMs populares

Aqui estão alguns dos recursos mais interessantes do Gemini 1.5 :

  • Tratamento de dados aprimorado: permite uploads diretos de PDFs grandes, repositórios de código ou vídeos longos como prompts. O modelo pode raciocinar entre modalidades e gerar texto.
  • Uploads e consultas de vários arquivos: os desenvolvedores agora podem fazer upload de vários arquivos e fazer perguntas.
  • Pode ser usado para diferentes tarefas: é otimizado para escalar diversas tarefas e mostra melhorias em áreas como matemática, ciências, raciocínio, multilinguismo, compreensão de vídeo e código.

Visuais impressionantes da IA

O primeiro trimestre de 2024 revelou modelos generativos de IA que podem criar visuais tão reais que geraram debates sobre o futuro das mídias sociais e o progresso da IA. Vamos mergulhar nos modelos que agitam a conversa.

Sora da OpenAI 

OpenAI, o criador do ChatGPT , anunciou um modelo de aprendizagem profunda de texto para vídeo de última geração chamado Sora em 15 de fevereiro de 2024. Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com alta qualidade visual com base em texto do usuário Comandos. 

Por exemplo, dê uma olhada no prompt a seguir. 

“Um mundo de papel maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.” 

E aqui está um quadro do vídeo de saída. 

Fig 4. Um quadro de um vídeo gerado por Sora.

A arquitetura de Sora torna isso possível combinando modelos de difusão para geração de textura e modelos de transformadores para coerência estrutural. Até agora, o acesso ao Sora foi concedido aos red teamers e a um seleto grupo de artistas visuais, designers e cineastas para compreender os riscos e obter feedback. 

Stability AI Difusão Estável 3 

Stability AI anunciou a chegada do Stable Diffusion 3 , um modelo de geração de texto para imagem, em 22 de fevereiro de 2024. O modelo mistura arquitetura de transformador de difusão e correspondência de fluxo. Eles ainda não lançaram um artigo técnico, mas existem alguns recursos importantes a serem observados.

Fig 5. A imagem de saída baseada no prompt: “Arte de anime épico de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro que diz "Difusão Estável 3" feito de energia colorida”

O modelo mais recente de Difusão Estável oferece melhor desempenho, qualidade de imagem e precisão na criação de imagens com vários assuntos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que variam de 800 milhões a 8 bilhões de parâmetros. Isso permitirá que os usuários escolham com base em suas necessidades específicas de escalabilidade e detalhes.

GoogleLumiere 

Em 23 de janeiro de 2024, Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere utiliza uma arquitetura denominada Space-Time-U-Net, ou STUNet para abreviar. Ajuda o Lumiere a compreender onde estão as coisas e como se movem num vídeo. Ao fazê-lo, pode gerar vídeos suaves e realistas.

Fig 6. Um quadro de um vídeo gerado com base no prompt: “Panda toca ukulele em casa”.

Com a capacidade de gerar 80 quadros por vídeo, a Lumiere está ultrapassando limites e estabelecendo novos padrões de qualidade de vídeo no espaço de IA. Aqui estão alguns dos recursos do Lumière:

  • Imagem para vídeo: a partir de uma imagem e um prompt, o Lumiere pode animar imagens em vídeos.
  • Geração estilizada: o Lumiere pode criar vídeos em estilos específicos usando uma única imagem de referência.
  • Cinemagraphs: Lumiere pode animar regiões específicas dentro de uma imagem para criar cenas dinâmicas, como um objeto específico se movendo enquanto o resto da cena permanece estático.
  • Pintura interna de vídeo: pode modificar partes de um vídeo, como alterar as roupas das pessoas dentro dele ou alterar detalhes do plano de fundo.

O futuro parece estar aqui

O início de 2024 também trouxe muitas inovações de IA que parecem algo saído de um filme de ficção científica. Coisas que antes diríamos impossíveis estão agora a ser trabalhadas. O futuro não parece tão distante com as seguintes descobertas.

Neuralink de Elon Musk

A Neuralink de Elon Musk implantou com sucesso seu chip cerebral sem fio em um ser humano em 29 de janeiro de 2024. Este é um grande passo para conectar cérebros humanos a computadores. Elon Musk compartilhou que o primeiro produto da Neuralink, chamado ‘Telepatia’, está em desenvolvimento. 

Fig 7. O implante Neuralink

O objetivo é permitir que os usuários, especialmente aqueles que perderam a funcionalidade dos membros, controlem os dispositivos sem esforço por meio de seus pensamentos. As aplicações potenciais vão além da conveniência. Elon Musk imagina um futuro onde indivíduos com paralisia possam se comunicar facilmente.

Piso HoloTile da Disney 

Em 18 de janeiro de 2024, a Walt Disney Imagineering revelou o HoloTile Floor. Foi apelidada de a primeira esteira omnidirecional para várias pessoas do mundo. 

Figura 8 . Disney Imagineer Lanny Smoot posa em sua mais recente inovação, o piso HoloTile.

Ele pode se mover sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Você pode andar em qualquer direção e evitar colisões enquanto estiver nela. O HoloTile Floor da Disney também pode ser colocado em palcos teatrais para dançar e se mover de maneira criativa.

Visão Pro da Apple

Em 2 de fevereiro de 2024, o tão aguardado headset Vision Pro da Apple chegou ao mercado. Possui uma variedade de recursos e aplicativos projetados para redefinir a experiência de realidade virtual e aumentada. O headset Vision Pro atende a um público diversificado, combinando entretenimento, produtividade e computação espacial. A Apple orgulhosamente anunciou que mais de 600 aplicativos, desde ferramentas de produtividade até serviços de jogos e entretenimento, foram otimizados para o Vision Pro em seu lançamento.

Devin da Cognição

Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. Devin é a primeira tentativa mundial de um engenheiro de software de IA autônomo. Ao contrário dos assistentes de codificação tradicionais que oferecem sugestões ou completam tarefas específicas, o Devin foi projetado para lidar com projetos completos de desenvolvimento de software, desde o conceito inicial até a conclusão. 

Ele pode aprender novas tecnologias, construir e implantar aplicativos completos, encontrar e corrigir bugs, treinar seus próprios modelos, contribuir para bases de código de código aberto e de produção e até mesmo assumir trabalhos reais de desenvolvimento em sites como o Upwork. 

Fig 9. Comparando Devin com outros modelos.

Devin foi avaliado no SWE-bench, um benchmark desafiador que pede aos agentes que resolvam problemas reais do GitHub encontrados em projetos de código aberto como Django e scikit-learn. Resolveu corretamente 13,86% dos problemas de ponta a ponta, em comparação com o estado da arte anterior de 1,96%.

Menções Honrosas

Tem acontecido tanta coisa que não é possível cobrir tudo neste artigo. Mas, aqui estão mais algumas menções honrosas. 

  • NVIDIAO LATTE3D da empresa LATTE, anunciado em 21 de março de 2024, é um modelo de IA de texto para 3D que cria instantaneamente representações em 3D a partir de instruções de texto.
  • O novo gerador de texto para vídeo da Midjourney, apresentado pelo CEO David Holz, começou o treinamento em janeiro e deve ser lançado em breve.
  • Avançando na revolução dos PCs com IA, a Lenovo lançou o ThinkBook 13x com tecnologia E Ink Prism e laptops com IA de alto desempenho em 8 de janeiro de 2024.

Fique atualizado sobre as tendências de IA conosco!

O início de 2024 viu avanços inovadores em IA e muitos marcos tecnológicos importantes. Mas este é apenas o começo do que a IA pode fazer. Se você quiser saber mais sobre os últimos desenvolvimentos de IA, Ultralytics tem você coberto.

Confira nosso repositório GitHub para ver nossas contribuições mais recentes em visão computacional e IA. Você também pode consultar nossas páginas de soluções para ver como a IA está sendo usada em setores como manufatura e saúde

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática