Glosario

XML

Descubre cómo el XML potencia la IA y el ML con la anotación, configuración e intercambio de datos. Aprende su estructura, usos y aplicaciones en el mundo real.

XML, o Lenguaje de Marcado Extensible, es un lenguaje de marcado versátil creado por el Consorcio de la World Wide Web (W3C) para codificar documentos de forma que sean tanto legibles por humanos como por máquinas. A diferencia del HTML, que se centra en cómo deben mostrarse los datos, la función principal del XML es describir, almacenar y transportar datos, haciendo hincapié en lo que son los datos. Su formato estructurado y autodescriptivo lo hace muy adecuado para intercambiar información entre distintos sistemas y aplicaciones, incluidos los utilizados en Inteligencia Artificial (IA) y Aprendizaje Automático (AM). Entender XML es beneficioso para cualquiera que trabaje con diversos conjuntos de datos o integre diferentes herramientas dentro de una canalización de ML.

Comprender la estructura XML

XML organiza los datos mediante etiquetas encerradas entre corchetes angulares (< >). Estas etiquetas definen elementos, que son los bloques de construcción fundamentales que representan estructuras de datos. Los elementos pueden contener datos de texto, otros elementos anidados, o una combinación, formando una estructura jerárquica en forma de árbol. Las etiquetas también pueden tener atributos, que proporcionan metadatos adicionales sobre un elemento. Por ejemplo, un archivo XML que describa los datos de un libro podría tener el siguiente aspecto <book category="fiction"><title>Example Novel</title><author>Jane Doe</author></book>. Esta estructura explícita, aunque a veces más verbosa que otros formatos, permite una validación rigurosa con respecto a esquemas como XSD (Definición del esquema XML), garantizando la coherencia de los datos, que es crucial en los complejos preprocesamiento de datos etapas.

Relevancia en IA y ML

Aunque formatos más nuevos como JSON y YAML son cada vez más populares para ciertas tareas debido a su concisión, XML sigue siendo relevante en varias áreas clave de la IA y el ML:

Anotación de datos: XML es un formato habitual para almacenar anotaciones en tareas de visión por ordenador (VC). Para la detección de objetos, los archivos XML suelen detallar la etiqueta de clase y las coordenadas de la caja delimitadora de cada objeto de una imagen. Del mismo modo, puede utilizarse para definir polígonos en la segmentación de imágenes. Muchos conjuntos de datos de referencia se basan en XML para sus datos reales. La recopilación y anotación adecuadas de los datos son pasos vitales para entrenar modelos precisos.
Configuración del modelo: Aunque Ultralytics suele preferir YAML para los archivos de configuración, a veces otros marcos o sistemas más antiguos utilizan XML para definir las arquitecturas de los modelos, los parámetros de entrenamiento o los ajustes de los experimentos. Su naturaleza estructurada permite configuraciones complejas.
Interoperabilidad de modelos: El Lenguaje de Marcado de Modelos Predictivos (PMML) es un estándar basado en XML diseñado para representar modelos estadísticos y de minería de datos entrenados. PMML permite que los modelos entrenados en un sistema (por ejemplo, utilizando Scikit-learn) se desplieguen en otro (por ejemplo, un motor de puntuación de producción) sin reescribir el código, lo que facilita el despliegue de modelos. Esto aborda un reto clave en las MLOps (Operaciones de Aprendizaje Automático).
Intercambio de datos: XML es un formato sólido para intercambiar datos estructurados entre los distintos componentes de un sistema de IA o entre organizaciones. Su naturaleza independiente de la plataforma garantiza que los datos puedan analizarse de forma fiable en diversos entornos de software, lo que es crucial para crear soluciones de IA escalables.

XML frente a formatos relacionados

Es útil distinguir XML de otros formatos comunes de serialización de datos:

JSON (Notación de Objetos JavaScript): En comparación con la sintaxis basada en etiquetas de XML, JSON utiliza una estructura de pares clave-valor más ligera derivada de objetos JavaScript. Generalmente es menos verboso y a menudo más fácil de analizar para las aplicaciones web y las API. Para más detalles, consulta la norma oficial JSON. Mientras que XML tiene soporte incorporado para espacios de nombres y esquemas, JSON suele depender de convenciones externas para su validación.
YAML (YAML no es un lenguaje de marcado): YAML prioriza la legibilidad humana, utilizando sangría para denotar la estructura en lugar de etiquetas o corchetes. Se utiliza con frecuencia para los archivos de configuración de los proyectos de ML (incluido Ultralytics YOLO ) y herramientas de infraestructura como código, como Kubernetes. Explora la especificación YAML para obtener más información.

Aplicaciones reales de XML en IA/ML

Conjunto de datos de Clases de Objetos Visuales (COV) PASCAL: Este influyente conjunto de datos de detección de objetos, ampliamente utilizado para la evaluación comparativa de modelos como YOLOv8 y YOLO11utiliza archivos XML para sus anotaciones. Cada archivo XML corresponde a una imagen y contiene información sobre el origen de la imagen, el tamaño y los detalles de cada objeto anotado, incluida su etiqueta de clase (por ejemplo, "coche", "persona") y las coordenadas del cuadro delimitador (xmin, ymin, xmax, ymax). Puedes encontrar más detalles en el sitio web oficial de PASCAL VOC y aprender a utilizarlo con los modelos de Ultralytics en la documentación del conjunto de datos VOC. Plataformas como Ultralytics HUB pueden ayudar a gestionar estos conjuntos de datos para entrenar modelos personalizados.
Metadatos de imágenes médicas (DICOM): La norma DICOM (Digital Imaging and Communications in Medicine) es omnipresente en la sanidad para almacenar y transmitir imágenes médicas. Aunque el propio DICOM es un formato binario, se suele utilizar XML para representar los extensos metadatos asociados a estas imágenes, como la información del paciente, los parámetros de adquisición y los hallazgos diagnósticos. Estos metadatos estructurados son vitales para las tareas de análisis de imágenes médicas, ya que permiten a los investigadores y médicos filtrar conjuntos de datos, entrenar modelos de IA diagnóstica(IA en Radiología) y garantizar la trazabilidad en las aplicaciones sanitarias de IA.

En resumen, aunque no siempre es el formato más conciso, la naturaleza estructurada de XML, su extensibilidad y sus sólidas capacidades de validación garantizan su papel continuado en áreas específicas de la IA y el ML, sobre todo en las normas de anotación de datos, los formatos de intercambio de modelos como PMML y la integración de datos empresariales. La familiaridad con XML es valiosa para navegar por diversas fuentes de datos y herramientas sobre el terreno.

XML

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Comprender la estructura XML

Relevancia en IA y ML

XML frente a formatos relacionados

Aplicaciones reales de XML en IA/ML

Leer más blogs

Únete a la comunidad Ultralytics

XML

Entrena los modelos YOLO simplementecon Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Comprender la estructura XML

Relevancia en IA y ML

XML frente a formatos relacionados

Aplicaciones reales de XML en IA/ML

Leer más blogs

Únete a la comunidad Ultralytics

Entrena los modelos YOLO simplemente
con Ultralytics HUB