Glosario

Privacidad diferencial

Aprende cómo la privacidad diferencial salvaguarda los datos sensibles en la IA/ML, garantizando la privacidad a la vez que permite un análisis preciso y el cumplimiento de la normativa.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La privacidad diferencial es un concepto fundamental en el campo del análisis de datos y el aprendizaje automático (AM), sobre todo cuando se trata de información sensible. Se trata de un sistema para compartir públicamente información sobre un conjunto de datos describiendo los patrones de grupos dentro del conjunto de datos, al tiempo que se oculta información sobre los individuos del conjunto de datos. La idea central es garantizar que la inclusión o exclusión de un único punto de datos no afecte significativamente al resultado de ningún análisis. Esto significa que un observador no puede deducir con un alto grado de confianza si los datos de un individuo concreto se utilizaron en el análisis, protegiendo así la privacidad individual.

Importancia de la privacidad diferencial

En la era de los grandes datos y la inteligencia artificial (IA), la necesidad de técnicas de preservación de la privacidad nunca ha sido mayor. A menudo, las organizaciones recopilan y analizan grandes cantidades de datos personales para entrenar modelos de aprendizaje automático, mejorar los servicios y obtener información. Sin embargo, esta práctica plantea importantes problemas de privacidad. La privacidad diferencial aborda estas preocupaciones proporcionando un marco matemáticamente riguroso para cuantificar y garantizar la privacidad.

Al implantar la privacidad diferencial, las organizaciones pueden demostrar su compromiso con la protección de los datos de los usuarios, cumplir normativas de privacidad como el GDPR, y generar confianza con sus usuarios. Además, permite el desarrollo de modelos de ML que pueden aprender de datos sensibles sin comprometer la privacidad individual, abriendo nuevas oportunidades para la investigación y la innovación en campos como la sanidad, las finanzas y las ciencias sociales.

Conceptos clave de la privacidad diferencial

La privacidad diferencial gira en torno al concepto de añadir ruido cuidadosamente calibrado a los datos o a los resultados de una consulta. Este ruido es suficiente para enmascarar la contribución de cualquier punto de datos individual, pero lo suficientemente pequeño como para garantizar que el análisis global siga siendo preciso. La cantidad de ruido añadido se controla mediante un parámetro llamado presupuesto de privacidad, a menudo denotado como épsilon (ε). Un valor épsilon menor indica una mayor garantía de privacidad, pero puede reducir la utilidad de los datos.

Otro concepto importante es la sensibilidad, que mide la cantidad máxima en que los datos de un solo individuo pueden afectar al resultado de una consulta. Las consultas con menor sensibilidad son más fáciles de hacer diferencialmente privadas porque se necesita menos ruido para enmascarar las contribuciones individuales.

Privacidad diferencial frente a otras técnicas de privacidad

Aunque la privacidad diferencial es una herramienta poderosa, no es el único enfoque para proteger la privacidad en el análisis de datos. Otras técnicas son la anonimización, el anonimato k y el aprendizaje federado.

La anonimización consiste en eliminar de los datos la información personal identificable. Sin embargo, se ha demostrado que los datos anonimizados a menudo pueden volver a identificarse vinculándolos con otra información disponible públicamente. El anonimato K pretende resolver este problema garantizando que cada individuo de un conjunto de datos sea indistinguible de al menos otros k-1 individuos. Sin embargo, puede seguir siendo vulnerable a ciertos tipos de ataques, sobre todo cuando se trata de datos de alta dimensión.

La privacidad diferencial ofrece una garantía de privacidad más sólida que estos métodos, porque no se basa en suposiciones sobre los conocimientos previos del atacante o su capacidad de cálculo. Proporciona una garantía formal y matemática de privacidad que se mantiene aunque el atacante tenga acceso a información auxiliar o realice múltiples consultas en el conjunto de datos.

El aprendizaje federado, por otra parte, es una técnica en la que varias partes entrenan en colaboración un modelo de aprendizaje automático sin compartir sus datos brutos. Cada parte entrena el modelo con sus datos locales, y sólo se comparten y agregan las actualizaciones del modelo. Aunque el aprendizaje federado ayuda a mantener los datos descentralizados, no proporciona el mismo nivel de garantías formales de privacidad que la privacidad diferencial. Sin embargo, ambas técnicas pueden combinarse para lograr tanto la descentralización como una sólida protección de la privacidad. Puedes obtener más información sobre la privacidad y la seguridad de los datos en las páginas de nuestro glosario.

Aplicaciones de la privacidad diferencial en IA/ML

La privacidad diferencial tiene una amplia gama de aplicaciones en IA y ML, sobre todo en escenarios que implican datos sensibles. He aquí dos ejemplos concretos:

  1. Investigación médica: Los investigadores a menudo necesitan analizar los datos de los pacientes para desarrollar nuevos tratamientos o comprender los patrones de las enfermedades. Sin embargo, los datos médicos son muy sensibles y están sujetos a estrictas normas de privacidad. Aplicando técnicas de privacidad diferencial, los investigadores pueden entrenar modelos de ML en conjuntos de datos médicos garantizando al mismo tiempo la protección de la información individual de los pacientes. Por ejemplo, un modelo de privacidad diferencial podría utilizarse para predecir el riesgo de una enfermedad concreta basándose en las características del paciente, sin revelar si un paciente concreto participó en el estudio o sus factores de riesgo individuales. Más información sobre el análisis de imágenes médicas.
  2. Sistemas de recomendación: Empresas como Netflix y Amazon utilizan sistemas de recomendación para sugerir productos o contenidos a los usuarios en función de sus preferencias. Estos sistemas suelen basarse en el análisis del comportamiento y los datos personales de los usuarios. Al incorporar la privacidad diferencial, las empresas pueden construir modelos de recomendación que aprendan de las preferencias de los usuarios, garantizando al mismo tiempo que las elecciones individuales no queden expuestas. Por ejemplo, un sistema de recomendación con privacidad diferencial podría sugerir películas basándose en los hábitos de visionado de usuarios similares, sin revelar las películas exactas que ha visto cada usuario. Explora más a fondo los sistemas de recomendación en nuestra página del glosario.

Estos son sólo dos ejemplos de cómo la privacidad diferencial puede permitir aplicaciones de IA/ML que preserven la privacidad. Otros casos de uso incluyen el análisis de sentimientos, el procesamiento del lenguaje natural y el entrenamiento de modelos generativos de IA sobre datos de texto sensibles. Más información sobre el análisis de sentimientos.

Aplicación de la privacidad diferencial

Existen varias herramientas y bibliotecas para aplicar la privacidad diferencial en la práctica. Una opción popular es la bibliotecaGoogle Differential Privacy, que proporciona un conjunto de algoritmos para el análisis de datos diferencialmente privados. Otra opción es OpenDP, un esfuerzo comunitario para construir una plataforma de privacidad diferencial fiable y de código abierto.

Al aplicar la privacidad diferencial, es crucial elegir cuidadosamente el presupuesto de privacidad (épsilon) en función del nivel de privacidad deseado y de los requisitos de utilidad del análisis. También es importante tener en cuenta la composición de múltiples mecanismos de privacidad diferencial, ya que las garantías de privacidad pueden degradarse cuando se realizan múltiples análisis con los mismos datos.

Conclusión

La privacidad diferencial es una poderosa técnica para proteger la privacidad individual al tiempo que permite realizar valiosos análisis de datos y aprendizaje automático. Proporciona una garantía matemática sólida de privacidad que se mantiene incluso en presencia de adversarios poderosos. A medida que aumente el uso de la IA y el ML, la privacidad diferencial desempeñará un papel cada vez más importante para garantizar que podamos aprovechar las ventajas de estas tecnologías sin comprometer los derechos fundamentales a la privacidad. Al comprender y aplicar la privacidad diferencial, las organizaciones pueden construir sistemas de IA más fiables y responsables que respeten la privacidad del usuario y promuevan el bien social.

Leer todo