Glosario

Privacidad diferencial

Aprende cómo la privacidad diferencial salvaguarda los datos sensibles en la IA/ML, garantizando la privacidad a la vez que permite un análisis preciso y el cumplimiento de la normativa.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Privacidad Diferencial es un sistema para compartir públicamente información sobre un conjunto de datos mediante la descripción de los patrones de los grupos dentro del conjunto de datos, al tiempo que se retiene información sobre los individuos del conjunto de datos. Proporciona sólidas garantías matemáticas de que la presencia o ausencia de datos de un solo individuo en el conjunto de datos no afectará significativamente al resultado de ningún análisis. Esto es crucial en los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), donde los modelos se entrenan a menudo con grandes cantidades de datos de entrenamiento potencialmente sensibles. Garantizar la privacidad individual genera confianza y facilita el cumplimiento de normativas como el Reglamento General de Protección de Datos (RGPD).

Cómo funciona la privacidad diferencial

La idea central de la privacidad diferencial es introducir una cantidad controlada de aleatoriedad, a menudo denominada "ruido", en el proceso de análisis de datos. Este ruido se calibra cuidadosamente para enmascarar las contribuciones individuales, permitiendo al mismo tiempo la extracción de estadísticas agregadas significativas o el entrenamiento de modelos ML útiles. El nivel de privacidad suele controlarse mediante un parámetro llamado épsilon (ε), que representa el "presupuesto de privacidad". Un épsilon más pequeño significa más ruido y mayores garantías de privacidad, pero potencialmente menor utilidad o precisión en los resultados. Este concepto fue formalizado por investigadores como Cynthia Dwork.

Importancia en la IA y el Aprendizaje Automático

En la IA y el ML, la privacidad diferencial es esencial cuando se trata de conjuntos de datos sensibles, como los datos de comportamiento de los usuarios, las comunicaciones personales o los historiales médicos utilizados en aplicaciones como la IA en la sanidad. Permite a las organizaciones aprovechar grandes conjuntos de datos para entrenar modelos potentes, como los utilizados para la detección de objetos o la clasificación de imágenes, sin exponer la información individual de los usuarios. Se pueden utilizar técnicas como el descenso de gradiente estocástico diferencialmente privado (SGD) para entrenar modelos de aprendizaje profundo (DL) con garantías de privacidad. La aplicación de estas técnicas es un aspecto clave del desarrollo responsable de la IA y de la defensa de su ética.

Aplicaciones en el mundo real

Las principales empresas y organizaciones tecnológicas emplean la privacidad diferencial:

  • Apple: Utiliza la privacidad diferencial para recopilar estadísticas de uso (como emojis populares o tipos de datos de salud) de millones de dispositivos iOS y macOS sin conocer datos específicos sobre usuarios individuales. Más información sobre el enfoque de Apple.
  • Google: Aplica la privacidad diferencial en varios productos, incluido Google Chrome para la recopilación de datos telemétricos y en el entrenamiento de modelos ML dentro de marcos como TensorFlow Privacy. También es un componente que se utiliza a menudo junto con el Aprendizaje Federado para proteger los datos de los usuarios durante el entrenamiento de modelos distribuidos.

Privacidad diferencial frente a conceptos relacionados

Es importante distinguir la privacidad diferencial de otras técnicas de protección de datos:

  • Anonimización: Las técnicas tradicionales de anonimización consisten en eliminar o alterar la información personal identificable (IPI). Sin embargo, los datos anonimizados a veces pueden volver a identificarse mediante ataques de vinculación. La privacidad diferencial proporciona una garantía más sólida y matemáticamente demostrable contra tales riesgos.
  • Seguridad de los datos: Se centra en proteger los datos de accesos no autorizados, violaciones y ciberamenazas, utilizando medidas como la encriptación y los controles de acceso. La privacidad diferencial complementa la seguridad de los datos protegiendo la privacidad individual incluso cuando las partes autorizadas acceden a los datos para analizarlos.
  • Aprendizaje federado: Técnica de entrenamiento en la que los modelos se entrenan en dispositivos descentralizados sin centralizar los datos brutos. Aunque mejora la privacidad de los datos, a menudo se añade privacidad diferencial para proteger aún más las actualizaciones del modelo enviadas desde los dispositivos.

Retos y consideraciones

El principal reto de la privacidad diferencial es gestionar la compensación inherente entre privacidad y utilidad. Aumentar la privacidad (añadir más ruido) a menudo disminuye la precisión o la utilidad del análisis o del modelo ML resultante. Elegir el nivel adecuado de ruido (épsilon) e implementar los mecanismos correctamente requiere experiencia. Recursos y herramientas como la biblioteca OpenDP pretenden facilitar la aplicación de la privacidad diferencial. Organizaciones como el Instituto Nacional de Estándares y Tecnología de EEUU (NIST) también ofrecen orientación.

La privacidad diferencial ofrece un marco sólido para permitir el análisis de datos y el aprendizaje automático al tiempo que protege rigurosamente la privacidad individual, lo que la convierte en una tecnología fundamental para los sistemas de IA fiables. Plataformas como Ultralytics HUB priorizan el desarrollo seguro y ético de la IA, alineándose con los principios que valoran la protección de los datos de los usuarios.

Leer todo