Explora os mais recentes modelos de IA da Meta FAIR, SAM 2.1 e CoTracker3, que oferecem capacidades avançadas de segmentação e rastreio para diversas aplicações do mundo real.
A inteligência artificial (IA) é um campo de investigação que tem estado recentemente a fervilhar de entusiasmo e energia, com novas inovações e descobertas a surgirem mais rapidamente do que nunca. Nas últimas semanas, a equipa de Investigação Fundamental em IA (FAIR) da Meta revelou um conjunto de ferramentas e modelos destinados a enfrentar desafios em diferentes áreas da IA. Estes lançamentos incluem actualizações que podem ter impacto em áreas tão diversas como os cuidados de saúde, a robótica e a realidade aumentada.
Por exemplo, o modelo atualizado SAM 2.1 melhora a segmentação de objectos, facilitando a identificação e a separação de objectos com precisão em imagens e vídeos. Entretanto, o CoTracker3 centra-se no seguimento de pontos, ajudando a manter o seguimento de pontos em fotogramas de vídeo, mesmo quando os objectos se movem ou ficam parcialmente bloqueados.
A Meta também introduziu versões mais leves e rápidas do seu modelo de linguagem Llama para uma utilização eficiente no dispositivo, juntamente com uma nova tecnologia de deteção tátil para robótica. Neste artigo, vamos analisar estes últimos lançamentos do Meta FAIR, analisando o que cada ferramenta oferece. Toca a começar!
A segmentação de objectos, uma tarefa fundamental da visão computacional, permite identificar e separar objectos distintos numa imagem ou vídeo, facilitando a análise de áreas específicas de interesse. Desde o seu lançamento, o Segment Anything Model 2 da Meta (SAM 2 ) tem sido utilizado para a segmentação de objectos em diferentes áreas, como a imagiologia médica e a meteorologia. Com base nas reacções da comunidade, a Meta introduziu agora o SAM 2.1, uma versão melhorada concebida para resolver alguns dos desafios encontrados com o modelo original e proporcionar um melhor desempenho global.
SAM 2.1 inclui actualizações para lidar melhor com objectos visualmente semelhantes e mais pequenos, graças a novas técnicas de aumento de dados. Também melhora a forma como o modelo lida com a oclusão (quando partes de um objeto estão escondidas da vista), treinando-o em sequências de vídeo mais longas, permitindo-lhe "lembrar-se" e reconhecer objectos ao longo do tempo, mesmo que estejam temporariamente bloqueados. Por exemplo, se alguém estiver a filmar um vídeo de uma pessoa a caminhar atrás de uma árvore, o SAM 2.1 pode seguir a pessoa à medida que esta reaparece do outro lado, utilizando a sua memória da posição e do movimento do objeto para preencher as lacunas quando a visualização é brevemente interrompida.
Juntamente com estas actualizações, a Meta lançou o SAM 2 Developer Suite, que fornece um código de formação de código aberto e uma infraestrutura de demonstração completa para que os programadores possam aperfeiçoar o SAM 2.1 com os seus próprios dados e integrá-lo numa série de aplicações.
Outra tarefa interessante da visão computacional é o seguimento de pontos. Implica seguir pontos ou caraterísticas específicas em vários fotogramas de um vídeo. Considera um vídeo de um ciclista a andar numa pista - o seguimento de pontos permite ao modelo seguir pontos no ciclista, como o capacete ou as rodas, mesmo que estejam escondidos por obstáculos durante um momento.
O seguimento de pontos é essencial para aplicações como a reconstrução 3D, a robótica e a edição de vídeo. Os modelos tradicionais dependem frequentemente de configurações complexas e de grandes conjuntos de dados sintéticos, o que limita a sua eficácia quando aplicados a cenários do mundo real.
O modelo de rastreamento CoTracker3 da Meta aborda essas limitações simplificando a arquitetura do modelo. Introduz também umatécnica de pseudo-rotulagem que permite que o modelo aprenda com vídeos reais e não anotados, tornando o CoTracker3 mais eficiente e escalável para uso prático.
Uma das caraterísticas que faz com que o CoTracker3 se destaque é o facto de conseguir lidar bem com oclusões. Utilizando a atenção cruzada, uma técnica que permite ao modelo partilhar informação entre vários pontos seguidos, o CoTracker3 pode inferir as posições de pontos ocultos referenciando os visíveis. Ao fazê-lo, o CoTracker3 foi concebido para ser altamente eficaz em ambientes dinâmicos, como seguir uma pessoa através de uma cena cheia de gente.
O CoTracker3 também oferece os modos online e offline. O modo online permite o rastreamento em tempo real. Enquanto o modo offline pode ser utilizado para um acompanhamento mais abrangente de sequências de vídeo completas, ideal para tarefas como edição de vídeo ou animação.
Embora o SAM 2.1 e o CoTracker3 apresentem os mais recentes avanços da Meta na visão computacional, existem também actualizações interessantes noutras áreas da IA, como o processamento de linguagem natural (PNL) e a robótica. Vamos dar uma vista de olhos a alguns destes desenvolvimentos recentes da Meta FAIR.
O Spirit LM da Meta é um novo modelo de linguagem multimodal que combina capacidades de texto e de fala , tornando as interações com a IA mais naturais. Ao contrário dos modelos tradicionais que lidam apenas com texto ou apenas com fala, o Spirit LM pode alternar facilmente entre os dois.
O Spirit LM pode compreender e gerar linguagem de forma a parecer mais humana. Por exemplo, pode melhorar os assistentes virtuais que podem ouvir e responder em linguagem falada ou escrita, ou apoiar ferramentas de acessibilidade que convertem entre fala e texto.
Além disso, o Meta desenvolveu técnicas para tornar mais eficientes os modelos linguísticos de grande dimensão. Uma delas, chamada Layer Skip, ajuda a reduzir as necessidades computacionais e os custos de energia, activando apenas as camadas necessárias para uma determinada tarefa. Isto é especialmente útil para aplicações em dispositivos com memória e potência limitadas.
Dando um passo em frente na necessidade de implementar aplicações de IA nesses dispositivos, a Meta também lançou versões quantizadas dos seus modelos Llama. Estes modelos são comprimidos para serem executados mais rapidamente em dispositivos móveis sem sacrificar a precisão.
À medida que os modelos de IA crescem em tamanho e complexidade, a otimização do seu processo de formação tornou-se crucial. No que diz respeito à otimização, a Meta introduziu o Meta Lingua, uma base de código flexível e eficiente que facilita o treino de grandes modelos de linguagem. O design modular do Meta Lingua permite aos investigadores personalizar e dimensionar rapidamente as suas experiências.
Os investigadores podem gastar menos tempo na configuração técnica e mais tempo na investigação propriamente dita. A base de código é também leve e fácil de integrar, tornando-a adequada tanto para pequenas experiências como para projectos de grande escala. Ao eliminar estes obstáculos técnicos, o Meta Lingua ajuda os investigadores a progredir mais rapidamente e a testar novas ideias com maior facilidade.
À medida que a tecnologia de computação quântica avança, traz novos desafios à segurança dos dados. Ao contrário dos computadores actuais, é provável que os computadores quânticos sejam capazes de resolver cálculos complexos muito mais rapidamente. Isto significa que podem potencialmente quebrar os métodos de encriptação atualmente utilizados para proteger informações sensíveis. É por isso que a investigação neste domínio está a tornar-se cada vez mais importante - desenvolver novas formas de proteger os dados é essencial enquanto nos preparamos para o futuro da computação quântica.
Para resolver este problema, a Meta desenvolveu a Salsa, uma ferramenta destinada a reforçar a segurança criptográfica pós-quântica. A Salsa ajuda os investigadores a testar ataques conduzidos por IA e a identificar potenciais fraquezas, permitindo-lhes compreender melhor e resolver as vulnerabilidades dos sistemas criptográficos. Ao simular cenários de ataque avançados, a Salsa fornece informações valiosas que podem orientar o desenvolvimento de medidas de segurança mais fortes e mais resistentes para a era quântica.
O mais recente trabalho da Meta na área da robótica centra-se em ajudar a IA a interagir mais naturalmente com o mundo físico, melhorando a perceção do tato, a destreza e a colaboração com os seres humanos. Em particular, o Meta Digit 360 é um sensor tátil avançado que dá aos robôs um sentido de tato refinado. Os sensores ajudam os robôs a detetar detalhes como a textura, a pressão e até as formas dos objectos. A partir destes conhecimentos, os robôs podem manusear objectos com mais precisão; algo que é crucial em áreas como os cuidados de saúde e a produção.
Aqui estão algumas das principais caraterísticas que o Meta Digit 360 inclui:
Uma extensão do Meta Digit 360 é o Meta Digit Plexus, uma plataforma que integra vários sensores tácteis numa única mão robótica. Esta configuração permite que os robôs processem informações de toque de vários pontos ao mesmo tempo, semelhante à forma como as mãos humanas recolhem dados sensoriais.
As últimas actualizações de IA da Meta, que vão desde os avanços na visão por computador com SAM 2.1 e CoTracker3 a novos desenvolvimentos em modelos de linguagem e robótica, mostram como a IA está a passar da teoria para soluções práticas e com impacto.
Estas ferramentas foram concebidas para tornar a IA mais adaptável e útil em diferentes domínios, ajudando em tudo, desde a segmentação de imagens complexas à compreensão da linguagem humana e até mesmo trabalhando connosco em espaços físicos.
Ao dar prioridade à acessibilidade e à aplicação no mundo real, o Meta FAIR está a aproximar-nos de um futuro em que a IA pode enfrentar desafios do mundo real e melhorar a nossa vida quotidiana de forma significativa.
Tens curiosidade sobre a IA? Junta-te à nossa comunidade para obteres as últimas actualizações e informações e consulta o nosso repositório GitHub. Também podes explorar a forma como a visão por computador pode ser utilizada em indústrias como a dos carros autónomos e da agricultura!
Começa a tua viagem com o futuro da aprendizagem automática