El machine learning tiene un problema de puerta trasera

GIGA

Si un adversario le proporciona un modelo de aprendizaje automático y secretamente coloca una puerta trasera maliciosa en él, ¿cuáles son las posibilidades de que pueda descubrirlo? Muy poco, según un nuevo artículo de investigadores de UC Berkeley, MIT y el Instituto de Estudios Avanzados.

La seguridad del aprendizaje automático

Se está volviendo cada vez más crítica a medida que los modelos ML encuentran su camino en un número creciente de aplicaciones. El nuevo estudio se centra en las amenazas a la seguridad de delegar la capacitación y el desarrollo de modelos de aprendizaje automático a terceros y proveedores de servicios.


Banner_frasco-suscripcion-800x250

Con la escasez de talento y recursos de IA, muchas organizaciones están subcontratando su trabajo de aprendizaje automático, utilizando modelos previamente entrenados o servicios de ML en línea. Estos modelos y servicios pueden convertirse en fuentes de ataques contra las aplicaciones que los utilizan.

El nuevo trabajo de investigación presenta dos técnicas para plantar puertas traseras indetectables en modelos de aprendizaje automático que pueden usarse para desencadenar comportamientos maliciosos.

El documento arroja luz sobre los desafíos de establecer la confianza en las canalizaciones de aprendizaje automático.

¿Qué es una puerta trasera de aprendizaje automático?

Los modelos de aprendizaje automático están capacitados para realizar tareas específicas, como reconocer rostros, clasificar imágenes, detectar spam o determinar el sentimiento de una reseña de producto o publicación en redes sociales.

Las puertas traseras de aprendizaje automático son técnicas que implantan comportamientos secretos en modelos de aprendizaje automático entrenados. El modelo funciona como de costumbre hasta que la puerta trasera se activa mediante una entrada especialmente diseñada proporcionada por el adversario. Por ejemplo, un adversario puede crear una puerta trasera que pasa por alto un sistema de reconocimiento facial utilizado para autenticar a los usuarios.

Un método de backdoor de ML simple y bien conocido es el envenenamiento de datos . En el envenenamiento de datos, el adversario modifica los datos de entrenamiento del modelo de destino para incluir artefactos desencadenantes en una o más clases de salida. Luego, el modelo se vuelve sensible al patrón de puerta trasera y activa el comportamiento previsto (por ejemplo, la clase de salida de destino) cada vez que lo ve.

Conoce más aquí

Banner_azules
Reciba las últimas noticias de la industria en su casilla:

Suscribirse ✉