Glossar

XML

Entdecke, wie XML KI und ML mit Datenkommentaren, Konfiguration und Austausch unterstützt. Erfahre mehr über die Struktur, die Verwendung und die praktischen Anwendungen!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

XML (Extensible Markup Language) ist eine vielseitige Auszeichnungssprache, die vom World Wide Web Consortium (W3C) entwickelt wurde, um Dokumente so zu kodieren, dass sie sowohl für Menschen als auch für Maschinen lesbar sind. Im Gegensatz zu HTML, das sich auf die Darstellung von Daten konzentriert, dient XML in erster Linie der Beschreibung, Speicherung und Übertragung von Daten, wobei der Schwerpunkt auf den Daten selbst liegt. Durch sein strukturiertes, selbstbeschreibendes Format eignet es sich hervorragend für den Austausch von Informationen zwischen verschiedenen Systemen und Anwendungen, einschließlich derer, die in der Künstlichen Intelligenz (KI) und im Maschinellen Lernen (ML) eingesetzt werden. XML-Kenntnisse sind für jeden von Vorteil, der mit verschiedenen Datensätzen arbeitet oder verschiedene Tools in eine ML-Pipeline integriert.

Die XML-Struktur verstehen

XML organisiert Daten mithilfe von Tags, die in spitzen Klammern (< >). Diese Tags definieren Elemente, die die grundlegenden Bausteine für Datenstrukturen darstellen. Elemente können Textdaten, andere verschachtelte Elemente oder eine Kombination davon enthalten und eine hierarchische, baumartige Struktur bilden. Tags können auch Attribute haben, die zusätzliche Metadaten über ein Element enthalten. Eine XML-Datei, die Buchdaten beschreibt, könnte zum Beispiel so aussehen <book category="fiction"><title>Example Novel</title><author>Jane Doe</author></book>. Diese explizite Struktur ist zwar manchmal ausführlicher als andere Formate, ermöglicht aber eine strenge Validierung gegen Schemata wie XSD (XML-Schema-Definition), um die Datenkonsistenz zu gewährleisten, die bei komplexen Datenvorverarbeitung Stufen.

Relevanz in KI und ML

Während neuere Formate wie JSON und YAML aufgrund ihrer Prägnanz für bestimmte Aufgaben immer beliebter werden, bleibt XML in einigen Schlüsselbereichen von KI und ML relevant:

  • Datenanmerkungen: XML ist ein gängiges Format für die Speicherung von Kommentaren bei Computer Vision (CV) Aufgaben. Bei der Objekterkennung werden in XML-Dateien oft die Klassenbezeichnung und die Koordinaten der Bounding Box für jedes Objekt in einem Bild angegeben. Ebenso kann es für die Definition von Polygonen bei der Bildsegmentierung verwendet werden. Viele Benchmark-Datensätze stützen sich auf XML für ihre Basisdaten. Die richtige Datenerfassung und -beschriftung sind wichtige Schritte für das Training präziser Modelle.
  • Modellkonfiguration: Obwohl YAML von Ultralytics oft für Konfigurationsdateien bevorzugt wird, wird XML manchmal auch von anderen Frameworks oder älteren Systemen verwendet, um Modellarchitekturen, Trainingsparameter oder Experimenteinstellungen zu definieren. Seine strukturierte Natur ermöglicht komplexe Konfigurationen.
  • Modell-Interoperabilität: Die Predictive Model Markup Language (PMML) ist ein XML-basierter Standard, mit dem trainierte statistische und Data-Mining-Modelle dargestellt werden können. PMML ermöglicht es, dass Modelle, die in einem System (z. B. Scikit-learn) trainiert wurden, in einem anderen System (z. B. einer Scoring-Engine für die Produktion) eingesetzt werden können, ohne dass der Code neu geschrieben werden muss, was den Einsatz der Modelle erleichtert. Damit wird eine zentrale Herausforderung bei MLOps (Machine Learning Operations) angegangen.
  • Datenaustausch: XML ist ein robustes Format für den Austausch strukturierter Daten zwischen verschiedenen Komponenten eines KI-Systems oder zwischen Organisationen. Seine Plattformunabhängigkeit sorgt dafür, dass Daten in verschiedenen Softwareumgebungen zuverlässig geparst werden können, was für den Aufbau skalierbarer KI-Lösungen entscheidend ist.

XML vs. verwandte Formate

Es ist hilfreich, XML von anderen gängigen Datenserialisierungsformaten zu unterscheiden:

  • JSON (JavaScript Object Notation): Im Vergleich zur Tag-basierten XML-Syntax verwendet JSON eine einfachere Schlüssel-Wert-Paar-Struktur, die von JavaScript-Objekten abgeleitet ist. Sie ist in der Regel weniger umfangreich und für Webanwendungen und APIs oft einfacher zu analysieren. Weitere Informationen findest du im offiziellen JSON-Standard. Während XML eine integrierte Unterstützung für Namespaces und Schemata bietet, ist JSON in der Regel auf externe Konventionen zur Validierung angewiesen.
  • YAML (YAML Ain't Markup Language): YAML legt den Schwerpunkt auf die Lesbarkeit und verwendet Einrückungen zur Kennzeichnung von Strukturen anstelle von Tags oder Klammern. Es wird häufig für Konfigurationsdateien in ML-Projekten verwendet (einschließlich Ultralytics YOLO Modellen) und Infrastruktur-as-code-Tools wie Kubernetes. Weitere Informationen findest du in der YAML-Spezifikation.

Reale Anwendungen von XML in KI/ML

  1. PASCAL Visual Object Classes (VOC) Dataset: Dieser einflussreiche Datensatz für die Objekterkennung wird häufig für das Benchmarking von Modellen wie YOLOv8 und YOLO11verwendet, nutzt XML-Dateien für seine Annotationen. Jede XML-Datei entspricht einem Bild und enthält Informationen über die Bildquelle, die Größe und Details zu jedem annotierten Objekt, einschließlich der Klassenbezeichnung (z. B. "Auto", "Person") und der Koordinaten der Bounding Box (xmin, ymin, xmax, ymax). Weitere Informationen findest du auf der offiziellen PASCAL VOC-Website und in der Dokumentation des VOC-Datensatzes erfährst du, wie du ihn mit Ultralytics verwenden kannst. Plattformen wie Ultralytics HUB können dabei helfen, solche Datensätze für das Training eigener Modelle zu verwalten.
  2. Metadaten für medizinische Bilder (DICOM): Der DICOM-Standard (Digital Imaging and Communications in Medicine) ist im Gesundheitswesen allgegenwärtig, um medizinische Bilder zu speichern und zu übermitteln. Während DICOM selbst ein binäres Format ist, wird XML üblicherweise verwendet, um die umfangreichen Metadaten zu diesen Bildern darzustellen, z. B. Patienteninformationen, Aufnahmeparameter und Diagnoseergebnisse. Diese strukturierten Metadaten sind für Aufgaben in der medizinischen Bildanalyse unerlässlich und ermöglichen es Forschern und Klinikern, Datensätze zu filtern, diagnostische KI-Modelle zu trainieren(KI in der Radiologie) und die Rückverfolgbarkeit in KI-Anwendungen im Gesundheitswesen sicherzustellen.

Zusammenfassend lässt sich sagen, dass XML zwar nicht immer das prägnanteste Format ist, aber aufgrund seiner strukturierten Natur, seiner Erweiterbarkeit und seiner robusten Validierungsfunktionen auch weiterhin eine wichtige Rolle in bestimmten Bereichen der KI und des ML spielen wird, insbesondere bei Standards für Datenkommentare, Modellaustauschformaten wie PMML und der Integration von Unternehmensdaten. XML-Kenntnisse sind wichtig, um sich in den verschiedenen Datenquellen und Tools in der Praxis zurechtzufinden.

Alles lesen