Descobre como a Aprendizagem Semi-Supervisionada combina dados etiquetados e não etiquetados para melhorar os modelos de IA, reduzir os custos de etiquetagem e aumentar a precisão.
A Aprendizagem Semi-Supervisionada (SSL) é um tipo de técnica de Aprendizagem Automática (AM) que se situa entre a aprendizagem supervisionada e a aprendizagem não supervisionada. Utiliza uma combinação de uma pequena quantidade de dados etiquetados e uma grande quantidade de dados não etiquetados para treinar modelos. A principal motivação por detrás da SSL é o elevado custo e esforço frequentemente associados à rotulagem de dados, especialmente em domínios complexos. Ao aproveitar os dados não rotulados facilmente disponíveis, a SSL visa melhorar o desempenho e a generalização do modelo para além do que poderia ser alcançado utilizando apenas os dados rotulados limitados.
O princípio fundamental da Aprendizagem Semi-Supervisionada é que os dados não rotulados, apesar de não terem rótulos explícitos, contêm informações valiosas sobre a estrutura subjacente e a distribuição dos dados. Os algoritmos SSL tentam explorar esta estrutura para melhorar o processo de aprendizagem. As abordagens comuns implicam frequentemente a adoção de pressupostos sobre os dados, como o "pressuposto de agrupamento" (os pontos do mesmo agrupamento têm provavelmente a mesma etiqueta) ou o "pressuposto de coletor" (os pontos de dados situam-se num coletor de dimensão inferior).
As técnicas utilizadas na SSL incluem métodos como a pseudo-rotulagem, em que um modelo treinado nos dados iniciais rotulados é utilizado para prever rótulos para os dados não rotulados. As previsões de elevada confiança são então tratadas como "pseudo-rótulos" e adicionadas ao conjunto de treino. Outra abordagem envolve a regularização da consistência, que incentiva o modelo a produzir resultados semelhantes para versões perturbadas da mesma entrada não rotulada, muitas vezes conseguida através de técnicas como o aumento de dados. Estes métodos ajudam o modelo a aprender caraterísticas mais robustas, utilizando o vasto conjunto de dados não rotulados. Podes encontrar uma boa visão geral da SSL em Towards Data Science.
A Aprendizagem Semi-Supervisionada é particularmente útil em cenários onde a obtenção de dados rotulados é um obstáculo. Algumas áreas de aplicação chave incluem:
É importante distinguir a Aprendizagem Semi-Supervisionada dos paradigmas de ML relacionados:
A aprendizagem semi-supervisionada oferece uma abordagem prática e poderosa para a criação de sistemas eficazes de Inteligência Artificial (IA), particularmente em tarefas de visão computacional como a deteção de objectos, em que as imagens ou vídeos não rotulados são abundantes. Plataformas como o Ultralytics HUB facilitam a gestão de conjuntos de dados que podem incluir misturas de dados etiquetados e não etiquetados para modelos de treino como o Ultralytics YOLO. A exploração de técnicas SSL pode ser crucial para projectos que enfrentam limitações na disponibilidade de dados etiquetados, tal como salientado em recursos como as publicações do blogue de IAGoogle sobre SSL.