Grüner Scheck
Link in die Zwischenablage kopiert

Verwende Albumentations-Erweiterungen, um deine Daten zu diversifizieren

Hier erfährst du, wie du Albumentations für Erweiterungen beim benutzerdefinierten Training Ultralytics YOLO11 verwenden kannst, um die Modellleistung mit unterschiedlichen Trainingsdaten zu verbessern.

Beim Aufbau einer Computer-Vision-Lösung ist das Sammeln einer Vielzahl von Bildern für das Training der KI-Modelle ein entscheidender Teil des Prozesses. Das erfordert oft viel Zeit und Geld, und manchmal sind die gesammelten Bilder nicht vielfältig genug, damit die Modelle effektiv lernen können.

Zum Beispiel können Computer Vision Modelle wie Ultralytics YOLO11 können anhand von Bilddatensätzen für verschiedene Bildverarbeitungsaufgaben in unterschiedlichen Anwendungsbereichen trainiert werden. Vielfältige Daten sind wichtig, denn sie helfen dem Modell, besser zu verallgemeinern, damit es Objekte und Muster in einer Vielzahl von realen Szenarien erkennen kann.

Wenn du mit einem Mangel an unterschiedlichen Daten zu kämpfen hast, können Techniken zur Erweiterung von Bilddaten eine gute Lösung sein. Methoden wie Drehen, Spiegeln und Anpassen der Helligkeit können dazu beitragen, die Vielfalt deines Datensatzes zu erhöhen und die Fähigkeit des Modells zu verbessern, mit einer breiteren Palette von Bedingungen umzugehen.

Aus diesem Grund unterstützt Ultralytics eine Integration zur Erweiterung von Bilddaten. Mit Albumentations, einem beliebten Tool, das eine Sammlung von Transformationen bietet, kannst du verschiedene visuelle Daten erstellen. Diese Integration vereinfacht den Trainingsprozess YOLO11 , indem sie die Trainingsbilder automatisch erweitert, was zu einer verbesserten Modellleistung führt. 

In diesem Artikel erfahren wir, wie du die Albumentations-Integration nutzen kannst, welche Vorteile sie bietet und wie sie sich auf die Modellschulung auswirkt.

Was ist Albumentations?

Computer-Vision-Modelle können aus einer großen Menge hochwertiger Bilder lernen, um Objekte in verschiedenen Umgebungen zu erkennen. Das Sammeln großer Datensätze aus realen Quellen kann langsam, kostspielig und ineffizient sein. Um diese Aufgabe zu vereinfachen, kannst du mit Hilfe der Bilddatenerweiterung neue Variationen bestehender Bilder erstellen, damit die Modelle aus verschiedenen Szenarien lernen können, ohne mehr Daten zu sammeln.

Konkret kannst du Albumentations nutzen, eine Open-Source-Bibliothek, die 2018 für die effiziente Erweiterung von Bilddaten eingeführt wurde. Sie unterstützt eine Vielzahl von Operationen, von einfachen geometrischen Änderungen wie Drehen und Spiegeln bis hin zu komplexeren Anpassungen wie Helligkeit, Kontrast und Hinzufügen von Rauschen.

Abb. 1. Beispiele für verschiedene Arten der Bilddatenerweiterung.

Die wichtigsten Merkmale von Albumentations

Albumentations ist für seine hohe Leistung bekannt, das heißt, es kann Bilder schnell und effizient verarbeiten. Es basiert auf optimierten Bibliotheken wie OpenCV und NumPy und verarbeitet große Datensätze mit minimaler Verarbeitungszeit, was es ideal für eine schnelle Datenerweiterung während des Modelltrainings macht.

Hier sind einige weitere wichtige Merkmale von Albumentations:

  • Große Auswahl an Verwandlungen: Albumentations bietet über 70 Arten von Augmentierungen. Diese Variationen helfen den Modellen zu lernen, Objekte trotz veränderter Beleuchtung, Winkel oder Hintergründe zu erkennen.
  • Optimiert für Geschwindigkeit: Sie nutzt fortschrittliche Optimierungstechniken wie SIMD (Single Instruction, Multiple Data), die mehrere Datenpunkte auf einmal verarbeitet, um die Bildvergrößerung zu beschleunigen und große Datensätze effizient zu verarbeiten.
  • Drei Stufen von Erweiterungen: Es verbessert die Daten auf drei Arten. Zum Beispiel werden Helligkeit und Farbe auf Pixelebene angepasst, ohne die Objekte zu verändern. Bei räumlichen Erweiterungen wird die Positionierung von Objekten verändert, während wichtige Details erhalten bleiben, und bei Mischungen werden Teile verschiedener Bilder zu neuen Mustern zusammengefügt.

Warum solltest du die Albumentations-Integration nutzen?

Du fragst dich vielleicht: Es gibt viele Möglichkeiten, Augmentierungen auf einen Datensatz anzuwenden, und du könntest sogar deine eigenen mit Tools wie OpenCV erstellen. Warum also eine Integration wählen, die eine Bibliothek wie Albumentations unterstützt?

Die manuelle Erstellung von Augmentierungen mit Tools wie OpenCV kann viel Zeit in Anspruch nehmen und erfordert einiges an Know-how. Außerdem kann es schwierig sein, die Transformationen fein abzustimmen, um die besten Ergebnisse zu erzielen. Die Albumentations-Integration macht diesen Prozess einfacher. Sie bietet viele gebrauchsfertige Transformationen, mit denen du bei der Vorbereitung deines Datensatzes Zeit und Mühe sparen kannst.

Ein weiterer Grund, sich für die Albumentations-Integration zu entscheiden, ist die reibungslose Zusammenarbeit mit der Ultralytics Modell-Trainingspipeline. Sie macht es viel einfacher, YOLO11 individuell zu trainieren, da die Erweiterungen automatisch während des Trainings angewendet werden. Das vereinfacht den Prozess, sodass du dich mehr auf die Verbesserung deines Modells als auf die Datenaufbereitung konzentrieren kannst. 

Erste Schritte mit der Albumentations-Integration

Interessanterweise ist die Verwendung der Albumentations-Integrationen für das Training von YOLO11 einfacher, als es scheint. Sobald die richtigen Bibliotheken eingerichtet sind, wendet die Integration beim Training automatisch Bilddatenerweiterungen an. So kann das Modell aus verschiedenen Bildvarianten mit demselben Datensatz lernen.

Als Nächstes gehen wir durch, wie du die Albumentations-Integration installierst und verwendest, wenn du YOLO11 individuell trainierst.

Installation des Ultralytics Python und von Albumentations

Bevor du Augmentations anwenden kannst, musst du sowohl das Ultralytics Python als auch Albumentations installieren. Die Integration wurde so gestaltet, dass beide Bibliotheken standardmäßig nahtlos zusammenarbeiten, sodass du dich nicht um komplexe Konfigurationen kümmern musst.

Der gesamte Installationsprozess kann in nur wenigen Minuten mit einem einzigen pip-Befehl abgeschlossen werden. pip ist ein Paketmanagement-Tool zur Installation von Python , wie in der Abbildung unten zu sehen ist. 

Abb. 2. Installation von Ultralytics und Albumentations.

Wenn Albumentations installiert ist, wendet der Trainingsmodus des Ultralytics während des Trainings automatisch Bildverbesserungen an. Wenn Albumentations nicht installiert ist, werden diese Erweiterungen nicht angewendet. Weitere Einzelheiten findest du in der offiziellen Ultralytics .

Training YOLO11 mit Hilfe der Albumentations-Integration

Lass uns besser verstehen, was unter der Haube der Albumentations-Integration passiert. 

Hier ist ein genauerer Blick auf die Erweiterungen, die während der YOLO11 angewendet werden:

  • Unschärfe: Diese Transformation fügt dem Bild eine leichte Unschärfe hinzu. Sie hilft dem Modell, Objekte zu erkennen, auch wenn sie unscharf sind.
  • Medianunschärfe: Sie reduziert zufälliges Rauschen und bewahrt gleichzeitig die Objektkanten in einem Bild. Das macht es dem Modell leichter, Objekte in komplexen Umgebungen zu erkennen.
  • Graustufen: Indem ein Bild in Schwarz-Weiß umgewandelt wird, kann diese Erweiterung dem Modell helfen, sich auf Formen und Texturen statt auf Farben zu konzentrieren.
  • CLAHE (Contrast limited adaptive histogram equalization): Diese Erweiterung erhöht den Kontrast in Bildern, insbesondere in Bereichen, die zu dunkel oder schwer zu erkennen sind, wie z. B. bei schlechten Lichtverhältnissen oder Dunst. Dadurch werden Objekte in diesen Bereichen klarer und können vom Modell leichter erkannt werden.
Abb. 3. Ein Beispiel für eine Graustufenerweiterung, die auf das Bild einer Katze angewendet wurde.

Anwendungen von YOLO11 und der Albumentations-Integration

Wenn du YOLO11 für eine bestimmte Anwendung trainierst, kann die Albumentations-Integration dabei helfen, die Leistung des Modells zu verbessern, indem es sich an verschiedene Bedingungen anpasst. Lass uns einige reale Anwendungen und die Herausforderungen besprechen, die diese Integration lösen kann.

Verbesserung der medizinischen Bildgebung

KI im Gesundheitswesen hilft Ärzten, medizinische Bilder genauer zu analysieren, um Diagnosen zu stellen und die Patientenversorgung zu verbessern. Rund ein Fünftel der Gesundheitsorganisationen setzt bereits KI-Lösungen ein. 

Die Entwicklung dieser Computer-Vision-Lösungen bringt jedoch eine Reihe von Herausforderungen mit sich. Medizinische Scans können sich von Krankenhaus zu Krankenhaus stark unterscheiden, was durch Faktoren wie unterschiedliche Geräte, Einstellungen und sogar die Erfahrung der Techniker beeinflusst wird. Helligkeits-, Kontrast- und Belichtungsschwankungen können die Konsistenz und Genauigkeit der Vision AI-Modelle beeinträchtigen, sodass es für sie schwierig ist, in verschiedenen Umgebungen zuverlässig zu arbeiten.

An dieser Stelle wird die Integration von Tools wie Albumentations unerlässlich. Durch die Erstellung mehrerer erweiterter Versionen desselben Scans ermöglicht Albumentations dem Modell, aus einer Vielzahl von Bildqualitäten zu lernen. Dadurch wird das Modell robuster und kann Krankheiten sowohl auf Bildern mit hoher als auch mit niedriger Qualität genau erkennen. 

Abb. 4. Erweitertes Röntgenbild.

Verbesserung der Sicherheit und Überwachung

Eine weitere interessante Anwendung von Vision AI ist der Bereich Sicherheit und Überwachung. Die Objekterkennung in Echtzeit kann Sicherheitsteams helfen, potenzielle Bedrohungen schnell zu erkennen. 

Ein Hauptproblem bei dieser Anwendung ist, dass Sicherheitskameras den ganzen Tag über Aufnahmen bei unterschiedlichen Lichtverhältnissen machen, die sich erheblich darauf auswirken können, wie ein Modell diese Bilder versteht. Faktoren wie schlechte Lichtverhältnisse, Blendung oder schlechte Sicht können es für Computer Vision Modelle schwierig machen, Objekte zu erkennen oder potenzielle Bedrohungen konsequent zu erkennen.

Die Albumentations-Integration hilft durch die Anwendung von Transformationen, um unterschiedliche Lichtverhältnisse zu imitieren. So kann das Modell lernen, Objekte sowohl in hellen als auch in schwach beleuchteten Umgebungen zu erkennen, was es zuverlässiger macht und die Reaktionszeiten unter schwierigen Bedingungen verbessert.

Arbeitsabläufe und Kundenerlebnis im Einzelhandel neu definieren

Ein verschüttetes Getränk im Supermarkt, ein Hund, der durch den Laden rennt, oder ein Kind, das eine Warenauslage umstößt, sind nur einige Beispiele für alltägliche Ereignisse, die für Vision AI in Einzelhandelsumgebungen interessant sein können. Computer Vision wird zunehmend eingesetzt, um das Kundenerlebnis zu verbessern, indem das Verhalten der Kunden verfolgt, der Kundenverkehr überwacht und die Produkte in den Regalen identifiziert werden. Allerdings können diese realen Situationen für KI-Systeme schwierig zu verstehen und genau zu verarbeiten sein.

Auch wenn nicht jedes Szenario in einem Bildverarbeitungsdatensatz dargestellt werden kann, hilft die Albumentations-Integration, indem sie die Daten erweitert, um viele mögliche Situationen abzudecken, wie z. B. unerwartete Beleuchtung, ungewöhnliche Winkel oder Hindernisse. So können sich die Bildverarbeitungsmodelle an verschiedene Bedingungen anpassen und sind besser in der Lage, Grenzfälle zu bewältigen und genaue Vorhersagen in dynamischen Einzelhandelsumgebungen zu treffen.

Die wichtigsten Erkenntnisse

Das Sammeln von verschiedenen realen Daten für das Modelltraining kann kompliziert sein, aber Albumentations macht es einfacher, indem es Bildvariationen erstellt, die den Modellen helfen, sich an unterschiedliche Bedingungen anzupassen. 

Die von Ultralytics unterstützte Albumentations-Integration vereinfacht den Prozess der Anwendung dieser Erweiterungen beim individuellen Training YOLO11. Das Ergebnis ist eine bessere Datenqualität, die einer Vielzahl von Branchen zugutekommt, indem sie genauere und zuverlässigere Vision AI-Modelle hervorbringt.

Tritt unserer Community bei und erkunde unser GitHub-Repository, um mehr über KI zu erfahren. Schau dir unsere Lizenzierungsoptionen an, um deine Vision-KI-Projekte in Gang zu bringen. Interessierst du dich für Innovationen wie KI in der Fertigung oder Computer Vision beim selbstfahrenden Fahren? Besuche unsere Lösungsseiten, um mehr zu erfahren. 

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens