Algunos de los 100.000 sitios web más populares recogen todo lo que escribes

Investigadores descubren que miles de sitios web almacenan los datos que los usuarios escriben en los formularios antes de que estos sean enviados con tácticas como keylogging.

Cuando te inscribes en un boletín de noticias, haces una reserva de hotel o haces el check out online, probablemente das por sentado que si escribes mal tu dirección de correo electrónico tres veces o cambias de opinión y sales de la página con una X, no importa. No pasa nada hasta que se pulsa el botón de enviar, ¿verdad? Bueno, quizá no. Como ocurre con muchas de las suposiciones sobre la web, no siempre es así, según una nueva investigación: Un número sorprendente de sitios web recogen parte o la totalidad de tus datos mientras los escribes en un formulario digital.

Investigadores de la Universidad de Lovainala Universidad de Radboud y la Universidad de Lausana rastrearon y analizaron los 100.000 sitios web más importantes, analizando las situaciones en las que un usuario visita un sitio desde la Unión Europea y otro desde Estados Unidos. Descubrieron que 1.844 sitios web recopilaban la dirección de correo electrónico de un usuario de la UE sin su consentimiento, y unos asombrosos 2.950 registraban el correo electrónico del usuario de alguna forma. Al parecer, muchos de los sitios no pretenden llevar a cabo el registro de datos, sino que incorporan servicios de marketing y análisis de terceros que provocan este comportamiento.

Tras rastrear específicamente los sitios en busca de fugas de contraseñas en mayo de 2021, los investigadores también encontraron 52 sitios web en los que terceros, incluido el gigante tecnológico ruso Yandex, estaban recogiendo incidentalmente datos de contraseñas antes de su presentación. El grupo reveló sus hallazgos a estos sitios, y los 52 casos han sido resueltos desde entonces.

«Si hay un botón de envío en un formulario, la expectativa razonable es que haga algo: que envíe tus datos cuando lo pulses», dice Güneş Acar, profesor e investigador del grupo de seguridad digital de la Universidad de Radboud y uno de los líderes del estudio. «Nos sorprendieron mucho estos resultados. Pensábamos que tal vez íbamos a encontrar unos cuantos cientos de sitios web en los que se recogía tu correo electrónico antes de enviarlo, pero esto superó con creces nuestras expectativas.»

Los investigadores, que presentarán sus hallazgos en la conferencia de seguridad Usenix en agosto de 2022, dicen que se inspiraron para investigar lo que llaman «formularios con fugas» por los informes de los medios de comunicación, en particular de Gizmodo, sobre terceros que recopilan datos de formularios independientemente del estado del envío. Señalan que, en el fondo, el comportamiento es similar al de los llamados keyloggers, que suelen ser programas maliciosos que registran todo lo que teclea un objetivo. Sin embargo, en un sitio web de primera categoría, los usuarios probablemente no esperarán que se registre su información. Y en la práctica, algunos sitios registraron los datos pulsación a pulsación, pero muchos tomaron los datos completos de un campo cuando los usuarios hicieron clic en el siguiente.

«En algunos casos, cuando haces clic en el siguiente campo, recogen el anterior, como cuando haces clic en el campo de la contraseña y recogen el correo electrónico, o simplemente haces clic en cualquier sitio y recogen toda la información inmediatamente«, dice Asuman Senol, investigador de privacidad e identidad en la KU Leuven y uno de los coautores del estudio. «No esperábamos encontrar miles de sitios web; y en EE.UU., las cifras son realmente altas, lo cual es alarmante».

A través de un importante esfuerzo por notificar a los sitios web y a los terceros que recopilan datos de esta manera, los investigadores descubrieron que una explicación de parte de la recopilación inesperada de datos puede tener que ver con el desafío de diferenciar una acción de «envío» de otras acciones del usuario en ciertas páginas web. Pero los investigadores subrayan que, desde el punto de vista de la privacidad, ésta no es una justificación adecuada.

Desde que completaron el documento, el grupo también hizo un descubrimiento sobre Meta Pixel y TikTok Pixel, rastreadores de marketing invisibles que los servicios incrustan en sus sitios web para rastrear a los usuarios en la web y mostrarles anuncios. Los investigadores descubrieron que estos píxeles de seguimiento captaban las direcciones de correo electrónico con hashuna versión oscura de las direcciones de correo electrónico utilizadas para identificar a los usuarios de la web en todas las plataformas, antes de su envío. En el caso de los usuarios estadounidenses, 8.438 sitios pueden haber filtrado datos a Metala empresa matriz de Facebook, a través de los píxeles, y 7.379 sitios pueden estar afectados para los usuarios de la UE. En el caso del píxel de TikTokel grupo encontró 154 sitios para los usuarios estadounidenses y 147 para los de la UE.

«Los riesgos para la privacidad de los usuarios son que se les rastrea de forma aún más eficaz; se les puede rastrear en diferentes sitios web, en diferentes sesiones, en el móvil y en el escritorio», afirma Acar. «Una dirección de correo electrónico es un identificador muy útil para el seguimiento, porque es global, único y constante. No se puede borrar como se borran las cookies. Es un identificador muy potente».

Dado que los resultados indican que borrar los datos de un formulario antes de enviarlo puede no ser suficiente para protegerse de toda recopilación, los investigadores crearon una extensión de Firefox llamada LeakInspector para detectar la recopilación de formularios fraudulentos. Y afirman que esperan que sus hallazgos sirvan para concienciar sobre el problema.

Los formularios con fugas son un tipo más de recopilación de datos de los que hay que tener cuidado en un campo ya muy saturado.