Olha para as inovações excitantes da IA do primeiro trimestre de 2024. Abordaremos avanços como o Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.
A comunidade de IA parece ganhar as manchetes quase diariamente. Os primeiros meses de 2024 foram emocionantes e repletos de inovações em IA. Desde novos e poderosos modelos de linguagem de grande porte até implantes cerebrais humanos, 2024 parece ser incrível.
Estamos vendo a IA transformar as indústrias, tornando a informação mais acessível e até dando os primeiros passos para fundir as nossas mentes com as máquinas. Vamos retroceder no primeiro trimestre de 2024 e observar mais de perto o progresso alcançado na IA em apenas alguns meses.
Grandes modelos de linguagem (LLMs), projetados para compreender, gerar e manipular a linguagem humana com base em grandes quantidades de dados de texto, ocuparam o centro das atenções no primeiro trimestre de 2024. Muitas grandes empresas de tecnologia lançaram seus próprios modelos LLM, cada um com capacidades únicas. O incrível sucesso de LLMs anteriores como o GPT-3 inspirou essa tendência. Aqui estão alguns dos lançamentos LLM mais notáveis do início de 2024.
Anthropic lançou Claude 3 em 14 de março de 2024. O modelo Claude 3 vem em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. Haiku, o modelo mais rápido, é otimizado para respostas básicas e rápidas. O Sonnet equilibra velocidade com inteligência e é voltado para aplicações empresariais. Opus, a versão mais avançada, oferece inteligência e raciocínio incomparáveis e é ideal para tarefas complexas e para alcançar benchmarks de alto nível.
Claude 3 possui muitos recursos e melhorias avançadas:
Databricks DBRX é um LLM aberto e de uso geral lançado pela Databricks em 27 de março de 2024. DBRX se sai muito bem em vários benchmarks, incluindo compreensão de linguagem, programação e matemática. Ele supera outros modelos estabelecidos e é aproximadamente 40% menor que modelos similares.
O DBRX foi treinado usando a previsão do próximo token com uma arquitetura refinada de mistura de especialistas (MoE), e é por isso que podemos ver melhorias significativas no treinamento e no desempenho de inferência. Sua arquitetura permite que o modelo preveja a próxima palavra em uma sequência com mais precisão, consultando um conjunto diversificado de submodelos especializados (os “especialistas”). Esses submodelos são bons para lidar com diferentes tipos de informações ou tarefas.
Google apresentou o Gemini 1.5, um modelo de IA multimodal e eficiente em termos de computação que pode analisar dados extensos de texto, vídeo e áudio, a 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Uma das principais características do Gemini 1.5 é o seu avanço na compreensão de contextos longos. O modelo é capaz de processar até 1 milhão de tokens de forma consistente. As capacidades do Gemini 1.5 também se devem a uma nova arquitetura baseada em MoE.
Aqui estão alguns dos recursos mais interessantes do Gemini 1.5 :
O primeiro trimestre de 2024 revelou modelos generativos de IA que podem criar visuais tão reais que geraram debates sobre o futuro das mídias sociais e o progresso da IA. Vamos mergulhar nos modelos que agitam a conversa.
OpenAI, o criador do ChatGPT , anunciou um modelo de aprendizagem profunda de texto para vídeo de última geração chamado Sora em 15 de fevereiro de 2024. Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com alta qualidade visual com base em texto do usuário Comandos.
Por exemplo, dê uma olhada no prompt a seguir.
“Um mundo de papel maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.”
E aqui está um quadro do vídeo de saída.
A arquitetura de Sora torna isso possível combinando modelos de difusão para geração de textura e modelos de transformadores para coerência estrutural. Até agora, o acesso ao Sora foi concedido aos red teamers e a um seleto grupo de artistas visuais, designers e cineastas para compreender os riscos e obter feedback.
Stability AI anunciou a chegada do Stable Diffusion 3 , um modelo de geração de texto para imagem, em 22 de fevereiro de 2024. O modelo mistura arquitetura de transformador de difusão e correspondência de fluxo. Eles ainda não lançaram um artigo técnico, mas existem alguns recursos importantes a serem observados.
O modelo mais recente de Difusão Estável oferece melhor desempenho, qualidade de imagem e precisão na criação de imagens com vários assuntos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que variam de 800 milhões a 8 bilhões de parâmetros. Isso permitirá que os usuários escolham com base em suas necessidades específicas de escalabilidade e detalhes.
Em 23 de janeiro de 2024, Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere utiliza uma arquitetura denominada Space-Time-U-Net, ou STUNet para abreviar. Ajuda o Lumiere a compreender onde estão as coisas e como se movem num vídeo. Ao fazê-lo, pode gerar vídeos suaves e realistas.
Com a capacidade de gerar 80 quadros por vídeo, a Lumiere está ultrapassando limites e estabelecendo novos padrões de qualidade de vídeo no espaço de IA. Aqui estão alguns dos recursos do Lumière:
O início de 2024 também trouxe muitas inovações de IA que parecem algo saído de um filme de ficção científica. Coisas que antes diríamos impossíveis estão agora a ser trabalhadas. O futuro não parece tão distante com as seguintes descobertas.
A Neuralink de Elon Musk implantou com sucesso seu chip cerebral sem fio em um ser humano em 29 de janeiro de 2024. Este é um grande passo para conectar cérebros humanos a computadores. Elon Musk compartilhou que o primeiro produto da Neuralink, chamado ‘Telepatia’, está em desenvolvimento.
O objetivo é permitir que os usuários, especialmente aqueles que perderam a funcionalidade dos membros, controlem os dispositivos sem esforço por meio de seus pensamentos. As aplicações potenciais vão além da conveniência. Elon Musk imagina um futuro onde indivíduos com paralisia possam se comunicar facilmente.
Em 18 de janeiro de 2024, a Walt Disney Imagineering revelou o HoloTile Floor. Foi apelidada de a primeira esteira omnidirecional para várias pessoas do mundo.
Ele pode se mover sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Você pode andar em qualquer direção e evitar colisões enquanto estiver nela. O HoloTile Floor da Disney também pode ser colocado em palcos teatrais para dançar e se mover de maneira criativa.
Em 2 de fevereiro de 2024, o tão aguardado headset Vision Pro da Apple chegou ao mercado. Possui uma variedade de recursos e aplicativos projetados para redefinir a experiência de realidade virtual e aumentada. O headset Vision Pro atende a um público diversificado, combinando entretenimento, produtividade e computação espacial. A Apple orgulhosamente anunciou que mais de 600 aplicativos, desde ferramentas de produtividade até serviços de jogos e entretenimento, foram otimizados para o Vision Pro em seu lançamento.
Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. Devin é a primeira tentativa mundial de um engenheiro de software de IA autônomo. Ao contrário dos assistentes de codificação tradicionais que oferecem sugestões ou completam tarefas específicas, o Devin foi projetado para lidar com projetos completos de desenvolvimento de software, desde o conceito inicial até a conclusão.
Ele pode aprender novas tecnologias, construir e implantar aplicativos completos, encontrar e corrigir bugs, treinar seus próprios modelos, contribuir para bases de código de código aberto e de produção e até mesmo assumir trabalhos reais de desenvolvimento em sites como o Upwork.
Devin foi avaliado no SWE-bench, um benchmark desafiador que pede aos agentes que resolvam problemas reais do GitHub encontrados em projetos de código aberto como Django e scikit-learn. Resolveu corretamente 13,86% dos problemas de ponta a ponta, em comparação com o estado da arte anterior de 1,96%.
Tem acontecido tanta coisa que não é possível cobrir tudo neste artigo. Mas, aqui estão mais algumas menções honrosas.
O início de 2024 viu avanços inovadores em IA e muitos marcos tecnológicos importantes. Mas este é apenas o começo do que a IA pode fazer. Se você quiser saber mais sobre os últimos desenvolvimentos de IA, Ultralytics tem você coberto.
Confira nosso repositório GitHub para ver nossas contribuições mais recentes em visão computacional e IA. Você também pode consultar nossas páginas de soluções para ver como a IA está sendo usada em setores como manufatura e saúde .
Começa a tua viagem com o futuro da aprendizagem automática