A pesar de que existen estrictas configuraciones de privacidad para los menores en internet, una investigación llevada a cabo por Human Rights Watch (HRW) de la que se hace eco Ars Technica ha revelado como más de un centenar de fotos de niños reales publicadas en la red han sido utilizadas para entrenar modelos de IA que generan imágenes.
Para ser exactos, Hye Juan Han, una investigadora de HRW, detectó 170 fotos de niños brasileños vinculadas a LAION-5B, un popular conjunto de datos de IA construido a partir de imágenes de la web pública tomadas por Common Crawl.
Ahora, HRW ha publicado un segundo estudio señalando que 190 fotos de niños de todo los estados y territorios de Australia, incluidos niños indígenas que pueden ser particularmente vulnerables, han sido usadas para entrenar modelos de IA.
¿Lo preocupante? Que estas fotos están vinculadas «sin el conocimiento o consentimiento de los niños o de sus familias». Han revela que los generadores de IA logran generar deepfakes de niños realistas gracias a que beben directamente de niños reales.
A esto se suma que las URL del conjunto de datos a veces revelan información identificativa de los niños como nombres y ubicaciones de dónde se tomaron las fotos, algo que facilita rastrear a los niños, cuyas imágenes de otro modo no serían descubiertas, algo que podría poner en peligro la privacidad y seguridad de los niños, advierte Han.
¿Lo peor? Que algunos padres creen que han protegido la privacidad de sus hijos en línea y desconocen que este tipo de riesgos existen.
A partir de un solo enlace de una foto que mostraba «a dos niños, de 3 y 4 años, sonriendo de oreja a oreja mientras sostienen pinceles frente a un colorido mural», Han pudo rastrear «los nombres completos y las edades de ambos niños, y el nombre de la guardería a la que asisten en Perth, en Australia Occidental.»
Y lo más perturbador, «la información sobre estos niños no parece existir en ningún otro lugar de Internet», lo que sugiere que las familias fueron particularmente cautelosas al proteger las identidades de estos niños en línea.
Es decir, se utilizaron configuraciones de privacidad muy estrictas. Las personas que subieron este contenido a YouTube marcaron la configuración de privacidad para que fuera «no listado» y no apareciera en las búsquedas, lo que se traduce en que solo alguien con acceso al vídeo tendría acceso.
¿Qué ha ocurrido? Que Common Crawl pudo acceder a la imagen y que YouTube también pudiese beber de esa imagen para recopilar datos de IA.
Desde YouTube, Jack Malon, un portavoz de la compañía, ha dejado claro que «la recopilación no autorizada de contenido de YouTube es una violación de nuestros Términos de Servicio, y seguimos tomando medidas contra este tipo de abuso».
El problema es que Han cree que el daño ya está hecho, puesto que las herramientas de IA ya se han entrenado con estas imágenes. Al final, la clave de todo es que los niños necesitan que los reguladores intervengan y detengan el entrenamiento antes de que ocurra.
«Los niños en Australia esperan con ansias ver si el gobierno adoptará protecciones para ellos,» enfatiza Han en su informe. «Los niños no deberían tener que vivir con el temor de que sus fotos puedan ser robadas y utilizadas en su contra».
Para encontrar las fotos de los niños australianos, Han revisó menos del 0.0001% de las 5.85 mil millones de imágenes y subtítulos contenidos en el conjunto de datos.
«Es asombroso que de una muestra aleatoria de unas 5.000 fotos, inmediatamente me encontré con 190 fotos de niños australianos,» revela Han a Ars. «Esperarías que hubiera más fotos de gatos que fotos personales de niños,» ya que LAION-5B es un «reflejo de todo Internet.»
Lo sorprendente es que de una muestra tan pequeña se haya encontrado tanta información. Es decir, si se analiza una muestra mayor puede que el recuento de niños afectados pueda ser mucho más grande.
Actualmente, LAION está trabajando con HRW para eliminar los enlaces a todas las imágenes señaladas, pero limpiar el conjunto de datos no parece ser un proceso rápido. Para que te hagas una idea, LAION no han eliminado los enlaces a las fotos de niños brasileños que reportó hace un mes.
Esto ya es un problema, pero lo realmente grave es que eliminar los enlaces del conjunto de datos no cambia el hecho de que los modelos de IA ya han sido entrenados con ellos.
«Los modelos de IA actuales no pueden olvidar los datos con los que fueron entrenados, incluso si los datos fueron eliminados posteriormente del conjunto de datos de entrenamiento,» explica el informe de Han.
Los niños que han servido para entrenar estos modelos de IA ya están expuestos a muchos riesgos, como que se puedan crear deepfakes que puedan dañar su imagen.
En Australia, el mes pasado, «unas 50 niñas de Melbourne informaron que las fotos de sus perfiles de redes sociales fueron tomadas y manipuladas usando IA para crear deepfakes sexualmente explícitos de ellas, que luego se difundieron en línea,» informó Han.
En este sentido, LAION recomienda a los padres preocupados por los riesgos de privacidad que eliminen las imágenes de los niños de internet para evitar este abuso, algo que Han cree que «no solo es irreal, sino francamente indignante».
«La respuesta no es pedir a los niños y padres que eliminen maravillosas fotos de niños de internet,» explica Han. Lo que debe ocurrir es que «exista algún tipo de protección legal para estas fotos, para que los niños no tengan que preguntarse si su selfie va a tener problemas«, sentencia.