Junta-te a nós enquanto mergulhamos no Segment Anything Model 2 da Meta AI (SAM 2) e compreendemos as aplicações em tempo real para as quais pode ser utilizado em várias indústrias.
No dia 29 de julho de 2024, a Meta AI lançou a segunda versão do seu modelo Segment Anything Model, SAM 2. O novo modelo consegue identificar quais os pixels que pertencem a um objeto alvo, tanto em imagens como em vídeos! A melhor parte é que o modelo é capaz de seguir consistentemente um objeto em todos os fotogramas de um vídeo em tempo real. SAM 2 abre possibilidades interessantes para a edição de vídeo, experiências de realidade mista e anotação mais rápida de dados visuais para treinar sistemas de visão computacional.
Com base no sucesso do SAM original, que tem sido utilizado em áreas como a ciência marinha, imagens de satélite e medicina, o SAM 2 enfrenta desafios como objectos em movimento rápido e alterações na aparência. A sua precisão e eficiência melhoradas tornam-no uma ferramenta versátil para uma vasta gama de aplicações. Neste artigo, vamos concentrar-nos nas áreas em que aSAM 2 pode ser aplicada e na sua importância para a comunidade de IA.
O Segment Anything Model 2 é um modelo de base avançado que suporta a segmentação visual com instruções ou PVS em imagens e vídeos. O PVS é uma técnica em que um modelo pode segmentar ou identificar diferentes partes de uma imagem ou vídeo com base em avisos específicos ou entradas dadas pelo utilizador. Estas indicações podem ser sob a forma de cliques, caixas ou máscaras que realçam a área de interesse. O modelo gera então uma máscara de segmentação que delineia a área especificada.
A arquitetura do SAM 2 baseia-se no SAM original, expandindo a segmentação de imagem para incluir também a segmentação de vídeo. Apresenta um descodificador de máscaras leve que utiliza dados de imagem e avisos para criar máscaras de segmentação. Para vídeos, o SAM 2 introduz um sistema de memória que o ajuda a recordar informações de fotogramas anteriores, garantindo um seguimento preciso ao longo do tempo. O sistema de memória inclui componentes que armazenam e recuperam detalhes sobre os objectos que estão a ser segmentados. SAM O 2 também pode lidar com oclusões, rastrear objectos através de múltiplos fotogramas e gerir avisos ambíguos gerando várias máscaras possíveis. SAM A arquitetura avançada do 2 torna-o altamente capaz em ambientes visuais estáticos e dinâmicos.
Especificamente, no que diz respeito à segmentação de vídeo, o SAM 2 consegue uma maior precisão com três vezes menos interacções do utilizador em comparação com os métodos anteriores. Para a segmentação de imagens, o SAM 2 supera o Segment Anything Model original (SAM), sendo seis vezes mais rápido e mais preciso. Esta melhoria foi apresentada no documento de investigação SAM 2 em 37 conjuntos de dados diferentes, incluindo 23 em que o SAM foi previamente testado.
Curiosamente, o SAM 2 da Meta AI foi desenvolvido através da criação do maior conjunto de dados de segmentação de vídeo até à data, o conjunto de dados SA-V. O extenso conjunto de dados inclui mais de 50.000 vídeos e 35,5 milhões de máscaras de segmentação e foi recolhido através de contribuições interactivas dos utilizadores. Os anotadores forneceram sugestões e correcções para ajudar o modelo a aprender com uma grande variedade de cenários e tipos de objectos.
Graças às suas capacidades avançadas de segmentação de imagem e vídeo, o SAM 2 pode ser utilizado em vários sectores. Vamos explorar algumas destas aplicações.
O novo modelo de segmentação da Meta AI pode ser utilizado para aplicações de Realidade Aumentada (RA) e Realidade Virtual (RV). Por exemplo, o SAM 2 pode identificar e segmentar com precisão objectos do mundo real e tornar a interação com objectos virtuais mais realista. Pode ser útil em vários domínios, como os jogos, a educação e a formação, em que é essencial uma interação realista entre elementos virtuais e reais.
Com dispositivos como os óculos de realidade aumentada cada vez mais avançados, as capacidades do SAM 2 poderão em breve ser integradas neles. Imagina que pões os óculos e olhas para a tua sala de estar. Quando os teus óculos segmentam e reparam na tigela de água do teu cão, podem lembrar-te de a encher, como mostra a imagem abaixo. Ou, se estiveres a cozinhar uma nova receita, os óculos podem identificar os ingredientes na tua bancada e fornecer instruções e dicas passo a passo, melhorando a tua experiência culinária e garantindo que tens todos os itens necessários à mão.
A investigação que utiliza o modelo SAM mostrou que este pode ser aplicado em domínios especializados, como a imagiologia por sonar. As imagens de sonar apresentam desafios únicos devido à sua baixa resolução, aos elevados níveis de ruído e às formas complexas dos objectos nas imagens. Ao aperfeiçoar o SAM para imagens de sonar, os investigadores demonstraram a sua capacidade de segmentar com precisão vários objectos subaquáticos, como detritos marinhos, formações geológicas e outros itens de interesse. Imagens subaquáticas precisas e fiáveis podem ser utilizadas na investigação marinha, arqueologia subaquática, gestão de pescas e vigilância para tarefas como o mapeamento de habitats, descoberta de artefactos e deteção de ameaças.
Uma vez que o SAM 2 se baseia e melhora muitos dos desafios que o SAM enfrenta, tem o potencial de melhorar ainda mais a análise das imagens de sonar. As suas capacidades de segmentação precisa podem ajudar em várias aplicações marinhas, incluindo a investigação científica e as pescas. Por exemplo, o SAM 2 pode delinear eficazmente estruturas subaquáticas, detetar detritos marinhos e identificar objectos em imagens de sonar orientadas para o futuro, contribuindo para uma exploração e monitorização subaquáticas mais precisas e eficientes.
Eis os potenciais benefícios da utilização do SAM 2 para analisar imagens de sonar:
Ao integrar o SAM 2 nos processos de imagiologia por sonar, a indústria marinha pode alcançar uma maior eficiência, precisão e fiabilidade na exploração e análise subaquáticas, conduzindo, em última análise, a melhores resultados na investigação marinha.
Outra aplicação do SAM 2 é em veículos autónomos. SAM O 2 pode identificar com precisão objectos como peões, outros veículos, sinais de trânsito e obstáculos em tempo real. O nível de detalhe que o SAM 2 pode fornecer é essencial para tomar decisões seguras de navegação e prevenção de colisões. Ao processar dados visuais com precisão, o SAM 2 ajuda a criar um mapa detalhado e fiável do ambiente e conduz a uma melhor tomada de decisões.
SAM A capacidade do 2 para funcionar bem em diferentes condições de iluminação, alterações climáticas e ambientes dinâmicos torna-o fiável para veículos autónomos. Quer se trate de uma rua urbana movimentada ou de uma autoestrada com nevoeiro, o SAM 2 consegue identificar e segmentar objectos de forma consistente e precisa, para que o veículo possa responder corretamente a várias situações.
No entanto, há algumas limitações a ter em conta. Para objectos complexos e em movimento rápido, o SAM 2 pode por vezes falhar detalhes finos, e as suas previsões podem tornar-se instáveis ao longo dos fotogramas. Além disso, o SAM 2 pode por vezes confundir vários objectos de aspeto semelhante em cenas com muita gente. É por estes desafios que a integração de sensores e tecnologias adicionais é fundamental nas aplicações de condução autónoma.
A monitorização ambiental utilizando a visão por computador pode ser complicada, especialmente quando há falta de dados anotados, mas é também isso que faz com que seja uma aplicação interessante para SAM 2. SAM 2 pode ser utilizado para seguir e analisar alterações em paisagens naturais, segmentando e identificando com precisão várias características ambientais, tais como florestas, corpos de água, áreas urbanas e terrenos agrícolas a partir de imagens de satélite ou de drones. Especificamente, a segmentação precisa ajuda a monitorizar a desflorestação, a urbanização e as alterações na utilização dos solos ao longo do tempo, fornecendo dados valiosos para a conservação e o planeamento ambientais.
Eis algumas das vantagens de utilizar um modelo como SAM 2 para analisar as alterações ambientais ao longo do tempo:
A demonstração do Segment Anything 2 é uma excelente forma de experimentar o modelo num vídeo. Utilizando as capacidades PVS do SAM 2, pegámos num vídeo antigo do YouTubeUltralytics e conseguimos segmentar três objectos ou pessoas no vídeo e pixelizá-los. Tradicionalmente, a edição de três indivíduos de um vídeo como esse seria demorada e entediante e exigiria o mascaramento manual quadro a quadro. No entanto, o SAM 2 simplifica este processo. Com alguns cliques na demonstração, podes proteger a identidade de três objectos de interesse numa questão de segundos.
A demonstração também permite experimentar alguns efeitos visuais diferentes, como colocar um foco de luz nos objectos seleccionados para seguimento e apagar os objectos que estão a ser seguidos. Se gostaste da demonstração e estás pronto para começar a inovar com o SAM 2, consulta a página de documentos do modeloUltralytics SAM 2 para obteres instruções detalhadas sobre como pôr mãos à obra com o modelo. Explora as funcionalidades, os passos de instalação e os exemplos para tirar o máximo partido do potencial do SAM 2 nos teus projectos!
O Segment Anything Model 2 da Meta AI (SAM 2) está a transformar a segmentação de vídeo e imagem. À medida que tarefas como a localização de objectos melhoram, estamos a descobrir novas oportunidades na edição de vídeo, realidade mista, investigação científica e imagiologia médica. Ao facilitar tarefas complexas e acelerar as anotações, o SAM 2 está preparado para se tornar uma ferramenta importante para a comunidade de IA. À medida que continuamos a explorar e a inovar com modelos como o SAM 2, podemos antecipar ainda mais aplicações inovadoras e avanços em vários domínios!
Fica a saber mais sobre IA explorando o nosso repositório GitHub e juntando-se à nossa comunidade. Consulta as nossas páginas de soluções para obteres informações detalhadas sobre a IA no fabrico e nos cuidados de saúde. 🚀
Começa a tua viagem com o futuro da aprendizagem automática