2024 começa com uma onda de IA generativa

Abirami Vina

6 min. de leitura

12 de abril de 2024

Um olhar sobre as emocionantes inovações de IA do primeiro trimestre de 2024. Cobriremos avanços como a Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.

A comunidade da IA parece fazer manchetes quase diariamente. Os primeiros meses de 2024 têm sido empolgantes e repletos de inovações em matéria de IA. Desde novos e poderosos modelos de linguagem de grande dimensão a implantes cerebrais humanos, 2024 está a preparar-se para ser fantástico.

Estamos a ver a IA a transformar indústrias, a tornar a informação mais acessível e até a dar os primeiros passos para fundir as nossas mentes com as máquinas. Vamos recuar até ao primeiro trimestre de 2024 e analisar mais de perto os progressos feitos na IA em apenas alguns meses.

Os LLM estão na moda

Os modelos de linguagem de grande dimensão (LLM), concebidos para compreender, gerar e manipular a linguagem humana com base em grandes quantidades de dados de texto, ocuparam o centro das atenções no primeiro trimestre de 2024. Muitas das principais empresas de tecnologia lançaram os seus próprios modelos LLM, cada um com capacidades únicas. O incrível sucesso de LLMs anteriores, como o GPT-3, inspirou esta tendência. Aqui estão alguns dos lançamentos de LLM mais notáveis do início de 2024.

Claude 3 da Anthropic

A Anthropic lançou o Claude 3 em 14 de março de 2024. O modelo Claude 3 está disponível em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. Haiku, o modelo mais rápido, é otimizado para respostas rápidas e básicas. O Sonnet equilibra velocidade com inteligência e é direcionado para aplicações empresariais. O Opus, a versão mais avançada, oferece inteligência e raciocínio inigualáveis e é ideal para tarefas complexas e para atingir os melhores benchmarks.

O Claude 3 apresenta muitas funcionalidades avançadas e melhorias:

  • Conversas multilingues melhoradas: Habilidades aprimoradas em idiomas como espanhol, japonês e francês.
  • Caraterísticas avançadas de visão: Capaz de lidar com vários formatos visuais.
  • Recusas minimizadas: Mostra mais compreensão com menos recusas desnecessárias, indicando uma melhor compreensão do contexto.
  • Janela de contexto alargada: Oferece uma janela de contexto de 200K, mas é capaz de processar entradas superiores a 1 milhão de tokens com base nas necessidades do cliente.
__wf_reserved_inherit
Figura 1. O Claude 3 é mais sensível ao contexto do que as versões anteriores.

DBRX da Databricks

Databricks DBRX é um LLM aberto e de uso geral lançado pela Databricks em 27 de março de 2024. O DBRX sai-se muito bem em vários testes de referência, incluindo compreensão de linguagem, programação e matemática. Ultrapassa outros modelos estabelecidos, sendo aproximadamente 40% mais pequeno do que modelos semelhantes.

__wf_reserved_inherit
Fig. 2. Comparação do DBRX com outros modelos.

O DBRX foi treinado utilizando a previsão da palavra seguinte com uma arquitetura de mistura de peritos (MoE) de grão fino, e é por isso que podemos ver melhorias significativas no desempenho do treino e da inferência. A sua arquitetura permite que o modelo preveja a palavra seguinte numa sequência com maior precisão, consultando um conjunto diversificado de submodelos especializados (os "peritos"). Estes submodelos são bons a lidar com diferentes tipos de informação ou tarefas.

Gemini 1.5 da Google

A Google apresentou o Gemini 1.5, um modelo de IA multimodal e eficiente em termos de computação que pode analisar dados extensos de texto, vídeo e áudio, a 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Uma das principais caraterísticas do Gemini 1.5 é o seu avanço na compreensão de contextos longos. O modelo é capaz de processar até 1 milhão de tokens de forma consistente. As capacidades do Gemini 1.5 também se devem a uma nova arquitetura baseada em MoE.

__wf_reserved_inherit
Figura 3. Comparação dos comprimentos de contexto de LLMs populares

Eis algumas das caraterísticas mais interessantes do Gemini 1.5:

  • Tratamento de dados melhorado: Permite o upload direto de grandes PDFs, repositórios de código ou vídeos longos como prompts. O modelo pode raciocinar através de modalidades e texto de saída.
  • Upload de vários arquivos e consultas: Os programadores podem agora carregar vários ficheiros e fazer perguntas.
  • Pode ser usado para diferentes tarefas: Está optimizado para ser escalado em diversas tarefas e mostra melhorias em áreas como matemática, ciências, raciocínio, multilinguagem, compreensão de vídeo e código

Imagens impressionantes da IA

O primeiro trimestre de 2024 revelou modelos de IA generativa capazes de criar imagens tão reais que suscitaram debates sobre o futuro das redes sociais e o progresso da IA. Vamos mergulhar nos modelos que estão a suscitar a conversa.

Sora da OpenAI 

A OpenAI, criadora do ChatGPT, anunciou um modelo avançado de aprendizagem profunda de texto para vídeo chamado Sora a 15 de fevereiro de 2024. O Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com elevada qualidade visual com base em instruções textuais do utilizador. 

Por exemplo, dê uma olhada no seguinte prompt. 

"Um mundo de papercraft maravilhosamente reproduzido de um recife de coral, repleto de peixes coloridos e criaturas marinhas." 

E aqui está um fotograma do vídeo de saída. 

__wf_reserved_inherit
Fig. 4. Um fotograma de um vídeo gerado por Sora.

A arquitetura do Sora torna isto possível através da combinação de modelos de difusão para a geração de texturas e modelos de transformação para a coerência estrutural. Até agora, o acesso ao Sora tem sido dado aos membros da equipa vermelha e a um grupo selecionado de artistas visuais, designers e realizadores para compreender os riscos e obter feedback. 

Estabilidade Difusão estável da AI 3 

A Stability AI anunciou a chegada do Stable Diffusion 3, um modelo de geração de texto para imagem, a 22 de fevereiro de 2024. O modelo mistura arquitetura de transformador de difusão e correspondência de fluxo. Ainda não foi publicado um documento técnico, mas há algumas caraterísticas importantes a ter em conta.

__wf_reserved_inherit
Fig. 5. A imagem de saída baseada na pergunta: "Arte épica de anime de um feiticeiro no cimo de uma montanha, à noite, lançando um feitiço cósmico no céu escuro que diz "Difusão Estável 3", feito de energia colorida"

O mais recente modelo de difusão estável oferece um melhor desempenho, qualidade de imagem e precisão na criação de imagens com vários motivos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que vão de 800 milhões a 8 mil milhões de parâmetros. Permitirá aos utilizadores escolherem com base nas suas necessidades específicas de escalabilidade e detalhe.

Lumiere da Google 

Em 23 de janeiro de 2024, a Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere utiliza uma arquitetura denominada Space-Time-U-Net, ou STUNet para abreviar. Esta ajuda o Lumiere a compreender onde estão as coisas e como se movem num vídeo. Ao fazê-lo, pode gerar vídeos suaves e realistas.

__wf_reserved_inherit
Fig. 6. Um fotograma de um vídeo gerado com base na pergunta: "Panda toca ukulele em casa".

Com a capacidade de gerar 80 fotogramas por vídeo, o Lumiere está a ultrapassar os limites e a estabelecer novos padrões de qualidade de vídeo no espaço da IA. Eis algumas das funcionalidades do Lumiere:

  • Imagem para vídeo: A partir de uma imagem e de um pedido, o Lumiere pode animar imagens em vídeos.
  • Geração estilizada: O Lumiere pode criar vídeos em estilos específicos usando uma única imagem de referência.
  • Cinemagrafias: O Lumiere pode animar regiões específicas de uma imagem para criar cenas dinâmicas, como um determinado objeto em movimento enquanto o resto da cena permanece estático.
  • Pintura de vídeo: Pode modificar partes de um vídeo, como mudar o vestuário das pessoas que o compõem ou alterar os detalhes do fundo.

O futuro parece estar aqui

O início de 2024 também trouxe muitas inovações de IA que parecem saídas de um filme de ficção científica. Coisas que antes diríamos serem impossíveis estão agora a ser trabalhadas. O futuro não parece assim tão distante com as seguintes descobertas.

Pavimento HoloTile da Disney 

Em 18 de janeiro de 2024, a Walt Disney Imagineering revelou o HoloTile Floor. Foi considerado o primeiro piso de passadeira omnidirecional para várias pessoas do mundo. 

__wf_reserved_inherit
Fig. 8. O Imagineer da Disney, Lanny Smoot, posa sobre a sua mais recente inovação, o pavimento HoloTile.

Pode mover-se sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Pode andar em qualquer direção e evitar colisões enquanto estiver sobre ele. O HoloTile Floor da Disney também pode ser colocado em palcos de teatro para dançar e mover-se de forma criativa.

Vision Pro da Apple

Em 2 de fevereiro de 2024, o muito aguardado auricular Vision Pro da Apple chegou ao mercado. Este dispositivo possui um conjunto de funcionalidades e aplicações concebidas para redefinir a experiência de realidade virtual e aumentada. Os auscultadores Vision Pro destinam-se a um público diversificado, combinando entretenimento, produtividade e computação espacial. A Apple anunciou com orgulho que mais de 600 aplicações, desde ferramentas de produtividade a serviços de jogos e entretenimento, foram optimizadas para o Vision Pro aquando do seu lançamento.

Devin, da Cognition

Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. O Devin é a primeira tentativa do mundo de criar um engenheiro de software com IA autónomo. Ao contrário dos assistentes de programação tradicionais que oferecem sugestões ou realizam tarefas específicas, o Devin foi concebido para gerir projectos completos de desenvolvimento de software, desde o conceito inicial até à conclusão. 

Pode aprender novas tecnologias, criar e implementar aplicações completas, encontrar e corrigir erros, treinar os seus próprios modelos, contribuir para bases de código aberto e de produção e até aceitar trabalhos de desenvolvimento reais em sítios como o Upwork. 

__wf_reserved_inherit
Fig. 9. Comparação do Devin com outros modelos.

O Devin foi avaliado no SWE-bench, um benchmark desafiante que pede aos agentes que resolvam problemas reais do GitHub encontrados em projectos de código aberto como o Django e o scikit-learn. Resolveu corretamente 13,86% dos problemas de ponta a ponta, em comparação com o anterior estado da arte de 1,96%.

Menções honrosas

Tem acontecido tanta coisa que não é possível cobrir tudo neste artigo. Mas aqui ficam mais algumas menções honrosas. 

  • O LATTE3D da NVIDIA, anunciado em 21 de março de 2024, é um modelo de IA de texto para 3D que cria instantaneamente representações 3D a partir de prompts de texto.
  • O novo gerador de texto para vídeo da Midjourney, apresentado pelo CEO David Holz, começou a ser treinado em janeiro e deverá ser lançado em breve.
  • Avançando a revolução dos PCs com IA, a Lenovo lançou o ThinkBook 13x com tecnologia E Ink Prism e portáteis com IA de elevado desempenho a 8 de janeiro de 2024.

Mantenha-se atualizado sobre as tendências da IA connosco!

O início de 2024 assistiu a avanços revolucionários na IA e a muitos marcos tecnológicos importantes. Mas isto é apenas o início do que a IA pode fazer. Se quiser saber mais sobre os últimos desenvolvimentos da IA, a Ultralytics tem tudo o que precisa.

Consulte o nosso repositório GitHub para ver as nossas mais recentes contribuições em visão computacional e IA. Também pode consultar as nossas páginas de soluções para ver como a IA está a ser utilizada em sectores como o fabrico e os cuidados de saúde

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência