Um olhar sobre as emocionantes inovações de IA do primeiro trimestre de 2024. Cobriremos avanços como a Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.

Um olhar sobre as emocionantes inovações de IA do primeiro trimestre de 2024. Cobriremos avanços como a Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.
A comunidade da IA parece fazer manchetes quase diariamente. Os primeiros meses de 2024 têm sido empolgantes e repletos de inovações em matéria de IA. Desde novos e poderosos modelos de linguagem de grande dimensão a implantes cerebrais humanos, 2024 está a preparar-se para ser fantástico.
Estamos a ver a IA a transformar indústrias, a tornar a informação mais acessível e até a dar os primeiros passos para fundir as nossas mentes com as máquinas. Vamos recuar até ao primeiro trimestre de 2024 e analisar mais de perto os progressos feitos na IA em apenas alguns meses.
Os modelos de linguagem de grande dimensão (LLM), concebidos para compreender, gerar e manipular a linguagem humana com base em grandes quantidades de dados de texto, ocuparam o centro das atenções no primeiro trimestre de 2024. Muitas das principais empresas de tecnologia lançaram os seus próprios modelos LLM, cada um com capacidades únicas. O incrível sucesso de LLMs anteriores, como o GPT-3, inspirou esta tendência. Aqui estão alguns dos lançamentos de LLM mais notáveis do início de 2024.
A Anthropic lançou o Claude 3 em 14 de março de 2024. O modelo Claude 3 está disponível em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. Haiku, o modelo mais rápido, é otimizado para respostas rápidas e básicas. O Sonnet equilibra velocidade com inteligência e é direcionado para aplicações empresariais. O Opus, a versão mais avançada, oferece inteligência e raciocínio inigualáveis e é ideal para tarefas complexas e para atingir os melhores benchmarks.
O Claude 3 apresenta muitas funcionalidades avançadas e melhorias:
Databricks DBRX é um LLM aberto e de uso geral lançado pela Databricks em 27 de março de 2024. O DBRX sai-se muito bem em vários testes de referência, incluindo compreensão de linguagem, programação e matemática. Ultrapassa outros modelos estabelecidos, sendo aproximadamente 40% mais pequeno do que modelos semelhantes.
O DBRX foi treinado utilizando a previsão da palavra seguinte com uma arquitetura de mistura de peritos (MoE) de grão fino, e é por isso que podemos ver melhorias significativas no desempenho do treino e da inferência. A sua arquitetura permite que o modelo preveja a palavra seguinte numa sequência com maior precisão, consultando um conjunto diversificado de submodelos especializados (os "peritos"). Estes submodelos são bons a lidar com diferentes tipos de informação ou tarefas.
A Google apresentou o Gemini 1.5, um modelo de IA multimodal e eficiente em termos de computação que pode analisar dados extensos de texto, vídeo e áudio, a 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Uma das principais caraterísticas do Gemini 1.5 é o seu avanço na compreensão de contextos longos. O modelo é capaz de processar até 1 milhão de tokens de forma consistente. As capacidades do Gemini 1.5 também se devem a uma nova arquitetura baseada em MoE.
Eis algumas das caraterísticas mais interessantes do Gemini 1.5:
O primeiro trimestre de 2024 revelou modelos de IA generativa capazes de criar imagens tão reais que suscitaram debates sobre o futuro das redes sociais e o progresso da IA. Vamos mergulhar nos modelos que estão a suscitar a conversa.
A OpenAI, criadora do ChatGPT, anunciou um modelo avançado de aprendizagem profunda de texto para vídeo chamado Sora a 15 de fevereiro de 2024. O Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com elevada qualidade visual com base em instruções textuais do utilizador.
Por exemplo, dê uma olhada no seguinte prompt.
"Um mundo de papercraft maravilhosamente reproduzido de um recife de coral, repleto de peixes coloridos e criaturas marinhas."
E aqui está um fotograma do vídeo de saída.
A arquitetura do Sora torna isto possível através da combinação de modelos de difusão para a geração de texturas e modelos de transformação para a coerência estrutural. Até agora, o acesso ao Sora tem sido dado aos membros da equipa vermelha e a um grupo selecionado de artistas visuais, designers e realizadores para compreender os riscos e obter feedback.
A Stability AI anunciou a chegada do Stable Diffusion 3, um modelo de geração de texto para imagem, a 22 de fevereiro de 2024. O modelo mistura arquitetura de transformador de difusão e correspondência de fluxo. Ainda não foi publicado um documento técnico, mas há algumas caraterísticas importantes a ter em conta.
O mais recente modelo de difusão estável oferece um melhor desempenho, qualidade de imagem e precisão na criação de imagens com vários motivos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que vão de 800 milhões a 8 mil milhões de parâmetros. Permitirá aos utilizadores escolherem com base nas suas necessidades específicas de escalabilidade e detalhe.
Em 23 de janeiro de 2024, a Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere utiliza uma arquitetura denominada Space-Time-U-Net, ou STUNet para abreviar. Esta ajuda o Lumiere a compreender onde estão as coisas e como se movem num vídeo. Ao fazê-lo, pode gerar vídeos suaves e realistas.
Com a capacidade de gerar 80 fotogramas por vídeo, o Lumiere está a ultrapassar os limites e a estabelecer novos padrões de qualidade de vídeo no espaço da IA. Eis algumas das funcionalidades do Lumiere:
O início de 2024 também trouxe muitas inovações de IA que parecem saídas de um filme de ficção científica. Coisas que antes diríamos serem impossíveis estão agora a ser trabalhadas. O futuro não parece assim tão distante com as seguintes descobertas.
A Neuralink de Elon Musk implantou com sucesso o seu chip cerebral sem fios num ser humano a 29 de janeiro de 2024. Este é um grande passo para ligar os cérebros humanos aos computadores. Elon Musk partilhou que o primeiro produto da Neuralink, chamado "Telepathy", está na calha.
O objetivo é permitir que os utilizadores, especialmente aqueles que perderam a funcionalidade dos membros, controlem dispositivos sem esforço através dos seus pensamentos. As potenciais aplicações vão para além da comodidade. Elon Musk imagina um futuro em que as pessoas com paralisia possam comunicar facilmente.
Em 18 de janeiro de 2024, a Walt Disney Imagineering revelou o HoloTile Floor. Foi considerado o primeiro piso de passadeira omnidirecional para várias pessoas do mundo.
Pode mover-se sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Pode andar em qualquer direção e evitar colisões enquanto estiver sobre ele. O HoloTile Floor da Disney também pode ser colocado em palcos de teatro para dançar e mover-se de forma criativa.
Em 2 de fevereiro de 2024, o muito aguardado auricular Vision Pro da Apple chegou ao mercado. Este dispositivo possui um conjunto de funcionalidades e aplicações concebidas para redefinir a experiência de realidade virtual e aumentada. Os auscultadores Vision Pro destinam-se a um público diversificado, combinando entretenimento, produtividade e computação espacial. A Apple anunciou com orgulho que mais de 600 aplicações, desde ferramentas de produtividade a serviços de jogos e entretenimento, foram optimizadas para o Vision Pro aquando do seu lançamento.
Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. O Devin é a primeira tentativa do mundo de criar um engenheiro de software com IA autónomo. Ao contrário dos assistentes de programação tradicionais que oferecem sugestões ou realizam tarefas específicas, o Devin foi concebido para gerir projectos completos de desenvolvimento de software, desde o conceito inicial até à conclusão.
Pode aprender novas tecnologias, criar e implementar aplicações completas, encontrar e corrigir erros, treinar os seus próprios modelos, contribuir para bases de código aberto e de produção e até aceitar trabalhos de desenvolvimento reais em sítios como o Upwork.
O Devin foi avaliado no SWE-bench, um benchmark desafiante que pede aos agentes que resolvam problemas reais do GitHub encontrados em projectos de código aberto como o Django e o scikit-learn. Resolveu corretamente 13,86% dos problemas de ponta a ponta, em comparação com o anterior estado da arte de 1,96%.
Tem acontecido tanta coisa que não é possível cobrir tudo neste artigo. Mas aqui ficam mais algumas menções honrosas.
O início de 2024 assistiu a avanços revolucionários na IA e a muitos marcos tecnológicos importantes. Mas isto é apenas o início do que a IA pode fazer. Se quiser saber mais sobre os últimos desenvolvimentos da IA, a Ultralytics tem tudo o que precisa.
Consulte o nosso repositório GitHub para ver as nossas mais recentes contribuições em visão computacional e IA. Também pode consultar as nossas páginas de soluções para ver como a IA está a ser utilizada em sectores como o fabrico e os cuidados de saúde.