Verificação verde
Link copiado para a área de transferência

A xAI lança o Grok 2.0 com integração FLUX.1

Conhece o Grok 2.0 da xAI de Elon Musk e a sua integração com o FLUX.1. Explora detalhes como funcionalidades, referências, comparações de modelos e como experimentá-lo.

No dia 14 de agosto, a empresa de IA de Elon Musk, xAI, anunciou o lançamento do Grok 2.0, um chatbot integrado ao FLUX.1, um modelo de geração de imagens da Black Forest Labs, no X (antigo Twitter). O FLUX.1 é um modelo avançado capaz de criar imagens altamente realistas, incluindo aquelas que podem ser vistas como sensíveis ou potencialmente enganadoras.

Ao contrário de muitos geradores de imagens populares que bloqueiam ou filtram certos tipos de conteúdo, como imagens violentas, explícitas ou enganadoras, o FLUX.1 tem menos restrições. Alguns vêem-no como uma vitória para a liberdade de expressão, enquanto outros estão impressionados com as suas capacidades avançadas. No entanto, também existem preocupações sobre as implicações éticas e o potencial uso indevido de uma tecnologia tão poderosa. Vamos mergulhar e explorar o que o Grok 2.0 traz para a mesa, o que faz com que o FLUX.1 se destaque e como podes experimentar estas ferramentas inovadoras.

Conhece o FLUX.1: Um gerador de imagens de IA

O FLUX.1 é um gerador avançado de imagens de IA de código aberto lançado pela Black Forest Labs em 1 de agosto de 2024. A Black Forest Labs é uma startup fundada por antigos engenheiros da Stability AI conhecidos pelo seu trabalho nos modelos Stable Diffusion amplamente utilizados. O FLUX.1 foi concebido para competir diretamente com jogadores estabelecidos como o MidJourney e o DALL-E 3 e traz um novo nível de qualidade e flexibilidade às imagens geradas por IA. Por exemplo, o FLUX.1 faz um excelente trabalho ao lidar com detalhes complicados com os quais muitos modelos têm dificuldade, como gerar mãos humanas de aspeto realista ou texto legível em sinais.

A Black Forest Labs está a oferecer três variações diferentes do FLUX.1 que podem ser utilizadas para diferentes aplicações. Dá uma vista de olhos a estas variações:

  • FLUX.1 [pro]: O modelo principal destina-se a utilização comercial e foi concebido para produzir resultados da mais elevada qualidade.
  • FLUX.1 [dev]: Uma versão de peso aberto que está disponível para uso não-comercial. É ideal para pesquisa e desenvolvimento.
  • FLUX.1 [schnell]: Um modelo otimizado para velocidade sob a licença Apache 2.0, perfeito para projetos pessoais e desenvolvimento local onde a geração rápida de imagens é necessária.
Figura 1. Compreende as variações do FLUX.1

Como é que o FLUX.1 funciona?

O FLUX.1 usa uma arquitetura de modelo híbrido que combina técnicas de transformador e difusão com um tamanho de modelo de 12 bilhões de parâmetros (as partes ajustáveis da rede neural que a ajudam a aprender com os dados). Os transformadores são um tipo de rede neural que pode compreender sequências como texto e imagens, reconhecendo padrões e relações dentro dos dados. Os modelos de difusão funcionam começando com ruído aleatório e refinando-o passo a passo até se formar uma imagem clara. Ao combinar estas duas abordagens, o FLUX.1 pode utilizar os pontos fortes de ambas as arquitecturas para produzir imagens de alta qualidade que correspondem às instruções textuais dadas. 

O FLUX.1 também utiliza técnicas avançadas como a incorporação posicional rotativa e a correspondência de fluxo. As incorporações posicionais rota tivas ajudam o modelo a compreender a ordem e a posição dos elementos no texto e nas imagens para garantir que tudo faz sentido em conjunto. A correspondência de fluxos é uma técnica utilizada em modelos generativos para tornar mais suave e eficiente o processo de criação de imagens a partir de ruído aleatório.

Avaliação comparativa do FLUX.1

Quando comparas o FLUX.1 com outros modelos populares como o MidJourney v6.0, o DALL-E 3 (HD) e o SD3-Ultra, o FLUX.1 estabelece uma nova referência na geração de imagens de IA. Destaca-se em áreas-chave como a qualidade da imagem, a forma como segue as instruções, a variedade de resultados e o suporte para diferentes tamanhos e proporções. Os modelos FLUX.1 [pro] e [dev] destacam-se pela produção de imagens de alta qualidade que correspondem de perto ao que os utilizadores pretendem, e estes modelos superam frequentemente os outros modelos na apresentação de resultados claros e precisos. Por outro lado, o FLUX.1 [schnell] é um dos modelos mais avançados para a geração rápida de imagens e tem um desempenho melhor do que modelos mais complexos como o MidJourney.

Fig. 2. Comparação entre Midjourney v6 e FLUX.1[pro]

Grok 2.0: As últimas novidades da xAI de Elon Musk

O Grok 2.0 é o mais recente modelo de linguagem de grande dimensão desenvolvido pela empresa de IA de Elon Musk, a xAI. Lançado em agosto de 2024, o Grok 2.0 está disponível para utilizadores X Premium e Premium+ na plataforma X (anteriormente Twitter). Além disso, em breve estará disponível para programadores e empresas através de uma API empresarial.

Figura 3. Um exemplo do Grok 2.0 a explicar um meme.

O Grok 2.0 foi construído com base numa arquitetura transformadora e, em comparação com a sua versão anterior, o Grok 1.5, está mais apto a seguir instruções, a raciocinar sobre problemas e a fornecer informações precisas. O chatbot foi testado contra outros modelos líderes de IA e apresentou resultados impressionantes. O Grok 2.0 supera modelos populares como o GPT-4 Turbo, o Claude 3.5 Sonnet e o Llama 3 405B em testes de referência que envolvem questões científicas de nível universitário, conhecimentos gerais e problemas matemáticos complexos. O Grok 2.0 também é bom em tarefas que exigem compreensão visual e obteve pontuações altas em raciocínio visual matemático e resposta a perguntas baseadas em documentos.

A ligação entre o Grok 2.0 e o FLUX.1

O FLUX.1 foi integrado ao Grok 2.0 para fornecer uma combinação perfeita de geração de texto e imagem. Embora a combinação de diferentes tecnologias seja comum hoje em dia para melhorar a funcionalidade e a experiência do utilizador, esta integração específica tem recebido muita atenção. 

Por um lado, a integração do FLUX.1 foi elogiada por alguns por adicionar um elemento "divertido" ao Grok 2.0. Os utilizadores podem experimentar gerar imagens criativas e, por vezes, ousadas - coisas que seriam restringidas ou fortemente moderadas por outras ferramentas de IA. Por exemplo, os utilizadores partilharam imagens no X que retratam figuras públicas em situações inapropriadas ou controversas, alegando que apoia a noção de liberdade de expressão.

Por outro lado, os críticos argumentam que a falta de diretrizes éticas claras do FLUX.1 pode levar a graves problemas éticos e sociais, como a desinformação e os deepfakes. Alguns receiam que a combinação de textos poderosos e sem censura e a criação de imagens numa das plataformas mais influentes das redes sociais possa aumentar a propagação da desinformação.

Grok 2.0 e a sua abordagem sem restrições

Não se trata apenas da geração de imagens. O próprio Grok 2.0 é mais restrito do que outras ferramentas de IA com as quais nos familiarizámos recentemente, como ChatGPT. Esta falta de moderação permite que o modelo ultrapasse os limites de uma forma que alguns consideram excitante e outros preocupante.

Por exemplo, o Grok 2.0 foi observado a gerar conteúdos de texto que podem ser facilmente interpretados como notícias falsas ou enganadoras. Um incidente recente envolveu a criação pelo Grok 2.0 de uma história falsa sobre o jogador da NBA Klay Thompson que supostamente estaria numa "onda de vandalismo com tijolos". O chatbot de IA não compreendeu o termo de basquetebol "atirar tijolos", que se refere simplesmente a lançamentos falhados. Em vez disso, o Grok 2.0 interpretou-o literalmente e inventou uma história sobre Thompson estar a cometer actos de vandalismo com tijolos verdadeiros. A publicação rapidamente ganhou força no X, com alguns utilizadores a adicionarem contas falsas de vítimas para alimentar a desinformação.

Figura 4. O post sobre X que foi escrito por Grok 2.

Apesar destas preocupações, alguns utilizadores apreciam a postura de "liberdade de expressão" do Grok 2.0. Argumentam que permite conversas mais abertas e liberdade criativa do que os modelos de IA fortemente moderados. Vêem o Grok 2.0 como um contraponto ao que consideram ser uma IA excessivamente cautelosa e "acordada" que limita a discussão sobre tópicos sensíveis. Para estes utilizadores, o Grok 2.0 oferece uma plataforma que se sente menos limitada pelas normas sociais.

Experimenta tu mesmo o FLUX.1 e o Grok 2.0

Existem algumas opções diferentes relacionadas com a experimentação do FLUX.1 e do Grok 2.0. O FLUX.1 pode ser acedido diretamente através de plataformas de IA como Hugging Face, Replicate e Fal.ai. Enquanto isso, o Grok 2.0 está disponível apenas para assinantes do X Premium e do Premium+.

Principais conclusões

O FLUX.1 e o Grok 2.0 estão a alargar os limites da IA e a suscitar conversas perspicazes. O FLUX.1 estabeleceu um novo padrão em imagens geradas por IA com a sua capacidade de produzir imagens altamente detalhadas e realistas. O Grok 2.0 está a usar o FLUX.1 para melhorar as suas capacidades para além das interações baseadas em texto. Por um lado, os entusiastas estão entusiasmados com a liberdade criativa e a exploração sem censura que estas ferramentas oferecem. Por outro lado, os críticos estão a dar o alarme sobre os riscos de desinformação, deepfakes e as implicações éticas de tais capacidades não regulamentadas numa plataforma tão influente como o X. À medida que o FLUX.1 e o Grok 2.0 evoluem, estão no centro de um debate sobre liberdade, criatividade e responsabilidade na era digital - um debate que provavelmente moldará o futuro da IA nos próximos anos.

Para saberes mais sobre Ultralytics, consulta o nosso repositório GitHub, junta-te à nossa comunidade e explora as nossas mais recentes soluções de IA em sectores como os cuidados de saúde e a indústria transformadora! 🚀

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática