Vê os bastidores da IA de visão no streaming

Explora como a visão computacional melhora as plataformas de transmissão com recomendações personalizadas e análise de conteúdo em tempo real para uma melhor experiência do utilizador.

Escrito por

Abirami Vina

min ler

10 de dezembro de 2024

3 de abril de 2025

Explora a visão computacional e as plataformas de streaming

Reconhecimento de cenas para recomendações personalizadas

Geração de imagens e miniaturas

Pré-visualização automática de conteúdos

Categorização e etiquetagem de conteúdos

Vantagens e desafios das plataformas de streaming com IA

O futuro da IA nas plataformas de streaming

Principais conclusões

Alguma vez te perguntaste como é que as plataformas de streaming tornam tão fácil ver os teus programas favoritos? Não há muito tempo, o entretenimento era muito diferente. Os horários da televisão eram fixos e os telespectadores geralmente assistiam ao que estava no ar. Os serviços de streaming mudaram esse paradigma. Pesquisas mostram que o mercado global de streaming de vídeo foi avaliado em US$ 106,83 bilhões em 2023, e espera-se que alcance US$ 865,85 bilhões até 2034.

A inteligência artificial (IA) tem sido fundamental para esta evolução. Especificamente, estamos a assistir a um aumento das inovações no domínio da visão computacional neste campo. A IA de visão permite que as plataformas de streaming compreendam e interpretem o conteúdo de vídeo através da análise de fotogramas e do reconhecimento de padrões.

Ao processar dados visuais, a visão por computador ajuda as plataformas a criar recomendações mais inteligentes, a melhorar a organização do conteúdo e até a melhorar as funcionalidades interactivas. Neste artigo, vamos explorar a forma como a visão computacional ajuda as plataformas de streaming a melhorar o fornecimento de conteúdos, a aperfeiçoar o envolvimento do utilizador e a simplificar a descoberta de conteúdos. Toca a começar!

Figura 1. O mercado global de streaming de vídeo.

‍

Explora a visão computacional e as plataformas de streaming

Quando se trata de plataformas de transmissão, a visão computacional pode ajudar a dividir os vídeos em fotogramas individuais e a analisá-los utilizando modelos como Ultralytics YOLO11. YOLO11 pode ser treinado de forma personalizada em grandes conjuntos de dados de exemplos rotulados. Os exemplos rotulados são imagens ou fotogramas de vídeo marcados com detalhes como os objectos que contêm, as acções que estão a acontecer ou o tipo de cena. Isto ajuda o modelo a aprender a reconhecer padrões semelhantes. Estes modelos podem detetar objectos, classificar cenas e identificar padrões em tempo real, fornecendo informações valiosas sobre o conteúdo.

Para compreenderes melhor como isto funciona, vejamos alguns exemplos de como a visão computacional é aplicada em plataformas de streaming para otimizar a experiência do utilizador e tornar o conteúdo mais acessível.

Reconhecimento de cenas para recomendações personalizadas

O reconhecimento de cenas é uma técnica de visão por computador que categoriza imagens ou quadros de vídeo com base no seu conteúdo visual e temas. Pode ser considerada como uma forma especializada de classificação de imagens, em que o foco está na identificação do ambiente geral ou da atmosfera de uma cena, em vez de objectos individuais.

Por exemplo, um sistema de reconhecimento de cenas pode agrupar cenas em categorias como "quarto de hóspedes", "caminho na floresta" ou "costa rochosa", analisando caraterísticas como cores, texturas, iluminação e objectos. O reconhecimento de cenas permite que as plataformas de streaming marquem e organizem o conteúdo de forma eficaz.

Figura 2. Categoriza cenas utilizando IA.

‍

Desempenha um papel fundamental nas recomendações personalizadas. Se um utilizador vê frequentemente conteúdos com cenários tranquilos ao ar livre, como "costas ensolaradas", ou interiores modernos, como "cozinha elegante", a plataforma pode recomendar programas ou filmes com visuais semelhantes. O reconhecimento de cenas simplifica a descoberta de conteúdos e apresenta aos utilizadores recomendações que correspondem às suas preferências de visualização.

Geração de imagens e miniaturas

A geração de imagens e miniaturas é o processo de criação de pré-visualizações visuais de vídeos para atrair espectadores e realçar momentos importantes. A IA e a visão por computador podem automatizar este processo para garantir que as miniaturas são relevantes e apelativas.

Vê como funciona o processo:

Análise de quadros: Um sistema de visão por computador pode começar por analisar milhares de fotogramas de vídeo para identificar momentos de destaque. Estes podem incluir expressões emocionais, acções chave ou cenas visualmente marcantes que melhor representem o conteúdo do vídeo.
‍
Análise de movimento: Uma vez selecionados os potenciais fotogramas, o Vision AI pode ser utilizado para verificar se estão nítidos e sem desfocagem, melhorando a qualidade visual geral da miniatura.
‍
Deteção de objectos e Análise de Cena: Usando modelos como o YOLO11 (que suportam tarefas de visão por computador, como a deteção de objectos e a segmentação de instâncias), o sistema pode detetar elementos importantes na imagem, como objectos, personagens ou cenários. Este passo confirma que a miniatura reflecte com precisão a essência do vídeo.
‍
Refinamento de imagem: Os fotogramas selecionados são depois refinados tendo em conta factores como os ângulos da câmara, a iluminação e a composição.
‍
Personalização: Finalmente, os algoritmos de aprendizagem automática podem ser utilizados para personalizar as miniaturas com base nas preferências do utilizador e no histórico de visualizações. Ao fazê-lo, adapta os elementos visuais aos gostos individuais, tornando-os mais susceptíveis de captar a atenção e de gerar envolvimento.

Um bom exemplo de uma aplicação semelhante no mundo real é a utilização da visão por computador pela Netflix para gerar automaticamente miniaturas. Ao analisar os fotogramas para detetar emoções, contexto e pormenores cinematográficos, a Netflix cria miniaturas que se adequam às preferências individuais dos espectadores. Por exemplo, os utilizadores que gostam de comédias românticas podem ver uma miniatura que realça um momento alegre, enquanto os fãs de ação podem ver uma cena intensa e cheia de energia.

Figura 3. As miniaturas de programas de TV podem ser personalizadas de acordo com as preferências do espetador.

‍

Pré-visualização automática de conteúdos

Quando percorres uma plataforma de streaming, as pré-visualizações curtas e apelativas que vês não são aleatórias. São cuidadosamente elaboradas utilizando tecnologias como a visão por computador para captar a atenção e realçar os momentos mais apelativos de um vídeo. Depois de selecionados os melhores momentos, estes são unidos numa pré-visualização suave e cativante.

O processo de seleção desses momentos envolve várias etapas fundamentais:

Segmentação de cenas: O vídeo é dividido em secções mais pequenas com base em transições naturais, tais como mudanças na iluminação, ângulos de câmara ou visuais.
‍
Deteção de movimento: Os momentos dinâmicos e cheios de ação são identificados para garantir que a pré-visualização capta a atenção.
‍
Modelos de saliência: Caraterísticas visuais como a cor, o brilho e o contraste são analisadas para identificar as partes mais apelativas de uma cena.
‍
Análise da expressão facial: Os momentos com expressões emocionais fortes são selecionados para criar uma ligação mais profunda com os espectadores.

Categorização e etiquetagem de conteúdos

A capacidade de pesquisar filmes por género, estado de espírito ou temas específicos depende de uma categorização e etiquetagem precisas do conteúdo. As plataformas de streaming mais populares utilizam a visão por computador para automatizar este processo, analisando os vídeos em busca de objectos, acções, definições ou emoções e atribuindo depois etiquetas relevantes. Isso ajuda a organizar grandes bibliotecas de mídia e torna as recomendações personalizadas mais precisas, combinando o conteúdo com as preferências do espetador.

As técnicas de IA visual, como a segmentação de cenas, a deteção de objectos e o reconhecimento de actividades, podem ser utilizadas para etiquetar conteúdos de forma eficaz. Ao identificar elementos-chave, como objectos, tons emocionais e acções, criam metadados detalhados para cada título. Os metadados podem depois ser analisados utilizando a aprendizagem automática para criar categorias que facilitam aos utilizadores encontrarem o que procuram e melhoram a experiência geral de navegação.

Figura 4. Um exemplo de categorização automática de conteúdo para recomendações personalizadas de streaming.

‍

Vantagens e desafios das plataformas de streaming com IA

A visão por computador está a melhorar as plataformas de transmissão com caraterísticas inovadoras que melhoram a experiência do utilizador. Eis algumas vantagens únicas a ter em conta:

Qualidade de transmissão adaptável: A visão por computador pode analisar cenas de vídeo para detetar momentos de grande movimento ou pormenores que necessitem de maior qualidade. Estes conhecimentos podem depois ser utilizados para ajustar a qualidade de transmissão de acordo com o dispositivo do utilizador e a velocidade da Internet.
‍
Monitorização do comportamento em tempo real: A IA pode ser utilizada para monitorizar transmissões em direto para detetar pirataria em tempo real. Também pode identificar acções não autorizadas, como adicionar sobreposições (por exemplo, logótipos ou anúncios) ou retransmitir transmissões para outras plataformas.
‍
Fornecimento de conteúdos com eficiência energética: Os conhecimentos da Vision AI podem otimizar o fornecimento de conteúdos através da análise da procura dos utilizadores e dos padrões de visualização. O armazenamento em cache de conteúdos populares localmente e o ajuste da qualidade do vídeo reduzem a utilização da largura de banda e o consumo de energia, tornando o streaming mais sustentável.

Apesar de todas as vantagens, há também algumas limitações a ter em conta na implementação destas inovações:

Elevados requisitos computacionais: Os algoritmos de visão por computador requerem uma grande capacidade computacional para processar e analisar o conteúdo de vídeo, o que pode levar a um aumento dos custos e da utilização de energia.

Preocupações com a privacidade dos dados: Uma vez que a visão computacional se baseia em grandes conjuntos de dados de interações e conteúdos dos utilizadores, pode suscitar preocupações quanto à privacidade e segurança dos dados.

Viés de dados: Os modelos de visão por computador podem refletir preconceitos nos seus dados de formação. Isto pode levá-los a favorecer certos tipos de conteúdo e a reduzir a variedade nas recomendações.

O futuro da IA nas plataformas de streaming

Inovações como a computação periférica e a tecnologia 3D estão a ajudar a moldar o futuro da forma como viveremos o entretenimento. A computação periférica pode ser utilizada para processar vídeos mais perto do local onde são transmitidos. Reduz os atrasos e poupa largura de banda, o que é especialmente importante para a transmissão em direto e o conteúdo interativo. Tempos de resposta mais rápidos significam experiências mais suaves e mais envolventes para os espectadores.

Ao mesmo tempo, a tecnologia 3D está a acrescentar profundidade e realismo a programas, filmes e funcionalidades interactivas. Estes avanços também abrem a porta a novas possibilidades, como a realidade aumentada (RA) e a realidade virtual (RV). Com dispositivos como os auscultadores de RV, os espectadores podem entrar em ambientes totalmente imersivos. As linhas entre o mundo digital e o mundo físico podem ser esbatidas para criar um nível de envolvimento totalmente novo.

Figura 5. Reformulação do streaming com experiências interactivas orientadas para a RV.

‍

Principais conclusões

A visão computacional está a redefinir as plataformas de streaming, tornando a análise de vídeo mais inteligente, a categorização de conteúdos mais rápida e as recomendações mais personalizadas. Com modelos como Ultralytics YOLO11 , as plataformas podem detetar objectos e classificar cenas em tempo real. Isto ajuda a facilitar a etiquetagem de conteúdos e melhora a forma como os programas e filmes são sugeridos.

As plataformas de streaming integradas com a Vision AI proporcionam experiências mais envolventes para os espectadores, garantindo simultaneamente operações de plataforma mais suaves e eficientes. Com o avanço da tecnologia, é provável que os serviços de streaming se tornem mais interactivos, oferecendo experiências de entretenimento mais ricas e envolventes.

Tens curiosidade sobre a IA? Visita o nosso repositório GitHub para explorares mais e te ligares à nossa comunidade. Descobre várias aplicações de IA nos cuidados de saúde e visão computacional na agricultura.

Vê os bastidores da IA de visão no streaming

Explora a visão computacional e as plataformas de streaming