Jueves, 7 Agosto, 2014 - 12:55

PhotoDNA: Google y Microsoft escanean tu correo en busca de pornografía infantil

Mandá tu info, fotos, videos o audios al 3624518042

Un hombre de Texas fue detenido la semana pasada después de que la policía le acusara de utilizar su cuenta de correo Gmail para enviar a un amigo imágenes de menores desnudas. Los agentes descubrían poco después que en realidad se trataba de un pedófilo reincidente. Este caso concreto ha aparecido en numerosos medios y ha dado la vuelta al mundo. ¿El motivo? Fue Google quien alertó a las autoridades de que podría haber fotografías sospechosas en la cuenta de correo del detenido.

Aunque todos nos alegramos de que dicho individuo esté ya bajo custodia, el hecho de que Googleescanee sus cuentas de correo para detectar material de este tipo ha generado bastantes preguntas sobre la privacidad del servicio. Lo más curioso de todo es que este proceso no es nuevo: Google lleva años usándolo. Y no sólo eso, y es que otras grandes compañías como Microsoft o Facebook también lo utilizan. ¿Cómo funciona este sistema y qué implicaciones legales tiene?

No, no es un escaneo manual

¿Cómo es capaz Google de detectar imágenes sospechosas en una cuenta de Gmail? No, no se dedican a leer correo a correo para ver si hay algo raro, ni tampoco abren manualmente todos los adjuntos para saber qué son y qué contienen. En su lugar, se realiza un escaneo automatizado de toda la información que procesa el servicio. En el caso de las imágenes, de cada una de ellas se obtiene un hash, una especie de huella dactilar digital (según ellos mismos dicen) que se compara con los hashes de otras imágenes explícitas de menores. Si coinciden, ya tienen un positivo.

Ante el revuelo creado, Google tuvo que dar explicaciones en público comentando esto mismo: es un escaneo automático y no manual que ayuda a identificar dichas imágenes ilegales. En el caso de que se detecte alguna, Google notifica al NCMEC (National Center for Missing & Exploited Children), que se encarga de dar el aviso a las autoridades. Éstas obtienen una orden judicial basándose en el indicio que Google aporta y se comprueba si, efectivamente, se trata de la imagen que Google cree que es.

El NCMEC es precisamente la institución que, junto a la ayuda de grandes compañías tecnológicas (Google o Microsoft, como veremos justo ahora), ha elaborado una gran base de datos de imágenes de este tipo para que dichas empresas puedan hacer comprobaciones automáticas rutinarias. Esto tiene una desventaja fundamental: sólo sirve para detectar imágenes de las que el NCMEC ya tiene conocimiento, por lo que otras podrían pasar totalmente desapercibidas. Aunque, a la vez, es una ventaja: si tienes un bebé y envías a un amigo una foto del peque chapoteando en la bañera, no dará positivo.

Pero ¿puede Google realizar dicho escaneo? En los términos de uso, esos que nadie se lee pero todo el mundo acepta, contemplan la posibilidad de "analizar tu contenido". De hecho, ya lo hacen para ofrecerte publicidad personalizada cada vez que accedes a tu bandeja de entrada. También incluyen una cláusula específica en la que se menciona la "Seguridad de los niños", aunque no explican cuál es el método que utilizan para "descubrir":

"Google tiene una política de tolerancia cero contra las imágenes de abuso sexual a niños. Si descubrimos dicho contenido, avisaremos a las autoridades y podríamos tomar acciones disciplinarias, como el cierre de la cuenta de aquellos involucrados."

No, tampoco es algo nuevo

Entonces ¿ahora de repente Gmail busca contenido explícito de menores en todas las cuentas? No. No es una medida nueva y de hecho ya ha producido arrestos en el pasado (como éste con fotos compartidas en Picasa a finales de 2013). En 2006 el buscador anunciaba su alianza en la Coalición de la Tecnología impulsada por el NCMEC. La tecnología de detección, eso sí, no comenzó a usarse hasta 2008, algo que no es un secreto y el propio Google reconoce. ¿La idea? Poder detectar estas imágenes en cualquier parte, no sólo en el correo, sino también en la web o cualquier otro servicio de la empresa.

PhotoDNA, el estándar creado por Microsoft

Pero ¿cómo es la tecnología que utiliza Google para realizar dicho escaneo? Google no ha dado muchos detalles, salvo que para cada imagen crean un identificador único y después lo comparan con los identificadores de las imágenes de la base de datos común del NCMEC. Sin embargo, y según Microsoft, parte del sistema que utiliza Google está basado en PhotoDNA.

La tecnología PhotoDNA fue desarrollada precisamente por Microsoft, que en 2009 la donó al propio NCMEC para que cualquier compañía tecnológica pueda usarla de forma totalmente gratuita. Ellos, lógicamente, también la aplican en todos sus productos (Outlook.com incluido). De hecho, Twitter y Facebook reconocen utilizarla en sus servicios. Lo más seguro es que otros miembros de la Coalición Tecnológica que decíamos, como Yahoo, AOL o Time Warner Cable, implementen también PhotoDNA o algún otro procedimiento similar en sus servicios de correo y alojamiento web.

Pero ¿cómo funciona PhotoDNA? Una imagen en Internet puede transformarse de manera sencilla: o se cambia la extensión, o el tamaño o incluso se modifican ligeramente los colores. PhotoDNA es capaz de reconocer todos estos pequeños cambios en una misma imagen, manteniendo el mismo identificador. El proceso que sigue esta tecnología es el siguiente:

1) Cogen cada imagen a analizar y la convierten a escala de grises, modificando también el tamaño hasta que encaje con el tamaño por defecto establecido por ellos.
2) Dividen esta imagen (ya con tamaño modificado y en escala de grises) en cuadrados más pequeños.
3) Para cada cuadrado calculan distintos parámetros, como la variación del tono de negro de cada pixel.
4) Con dichos valores se crea un histograma.
5) Estos valores numéricos, finalmente, se convierten en la firma única o hash se asigna a cada imagen.

photodnacreatesimage_page.png

A partir de uno de estos hashes no se puede reconstruir la imagen. Ni siquiera se puede decir qué sale en ella o cómo es la fotografía. Simplemente sirven para hacer de "huella dactilar" oidentificación única de una fotografía. Si dos hashes son muy parecidos, puede detectarse que la imagen es casi la misma, salvo con breves modificaciones. Microsoft nos da un ejemplo de dos imágenes distintas (cada una tiene distinto formato) pero con un PhotoDNA casi igual, con lo que aparecería como positivo.

thephotodnasignature_page.png

Dos imágenes casi iguales con una firma PhotoDNA similar: se detectarían como si fuese la misma

¿Y qué ocurre con los vídeos? PhotoDNA todavía parece no soportar todavía estos formatos, pero el propio Eric Schmidt reconocía a finales de 2013 en un artículo en el Daily Mail que YouTube estaba trabajando en una nueva tecnología para detectar vídeos con este contenido ilegal, estando ya el algoritmo en fase de pruebas. La idea, según Schmidt, es poner pronto esta tecnología a disposición del resto de compañías tecnológicas, como ya hiciera Microsoft con PhotoDNA.

La fina línea entre seguridad y privacidad

Aunque a todos nos gustaría ver a estos delincuentes en la cárcel, lo cierto es que el proceso siembra bastantes dudas. ¿Y si pronto, además de imágenes explícitas de menores, se empieza a rastrear los correos por otro tipo de contenidos? David Maeztu, abogado experto en TIC, hace dos preguntas en su blog que manifiestan el peligro de este tipo de iniciativas: ¿Qué impediría que para otros delitos o vulneraciones de derechos se imponga similar obligación? ¿Tiene la empresa derecho a decidir qué delitos persigue y denuncia?

Respecto a estas cuestiones, Google aclaraba lo siguiente:

"Es importante recordar que sólo utilizamos esta tecnología para identificar imágenes de abusos a menores, no cualquier otro contenido que pueda estar asociado con actividad criminal (por ejemplo, utilizar el correo para planear un robo)."

Según el NCMEC, las leyes federales obligan a las compañías tecnológicas a notificar a las autoridades si han detectado contenido sospechoso de ser pornografía infantil. Pero ¿qué ocurre en España? La respuesta es que no está del todo claro, como suele ser habitual cada vez que hablamos de nuevas tecnologías con una legislación no adaptada en la mano.

Volviendo al artículo de David Maeztu que mencionábamos antes, nos recuerda allí que las comunicaciones por correo electrónico están protegidas por el artículo 39 de la Ley General de Telecomunicaciones, en donde se establece que se debe garantizar el secreto de las mismas. David, además, explica que "estaríamos ante una interceptación de las comunicaciones que, aunque teóricamente consentida por el usuario al aceptar los Términos de Servicio, puede resultar contraria a la ley".

Hemos consultado también sobre este tema a Sergio Carrasco (@sergiocm), abogado experto en nuevas tecnologías y co-fundador de Derecho en Red. Sergio nos explica que en este caso "no se abre el sobre de la carta", hablando metafóricamente, por lo que no se rompería dicho secreto. Añade lo siguiente: "Aunque las colisiones en un hash no son deseables, siempre existe la posibilidad de que se produzca un error basado en la comparación de éstos, y que el contenido no sea finalmente ilícito. Es por ello que en este mismo caso al final ha habido realmente una autorización que ha permitido obtener pruebas, y parece que Google más que nada ha avisado de la posibilidad de que se estuviera produciendo el ilícito".

Realmente, lo que ha hecho Google en este caso es detectar que podría haber una imagen ilegalen un correo y notificar a las autoridades para que lo investiguen. Éstas, con la pista que les ha dado Google, consiguieron una orden judicial para acceder al buzón de correo en cuestión. Google no les envió la imagen directamente, sino que les avisó de una posible coincidencia, nada más, por lo que siguiendo este proceso no se cometen ilegalidades. "Si el mecanismo de Google fuera detectar la imagen, y pasarla directamente a la policía, y que no hubiera autorización judicial de por medio, ahí habría un problema", nos pone de ejemplo Sergio como situación en la que sí se vulneraría la ley.

En cualquier caso, al final estamos ante el debate de siempre: ¿a cuánta privacidad estamos dispuestos a renunciar a cambio de una mayor seguridad y, en este caso específico, a cambio de meter en la cárcel a pedófilos? Y, sobre todo, ¿quién nos garantiza que esto no es sólo el principio de otra "detección automática" de delitos que al final conlleve a otros casos de censura más graves? ? Lo vimos de hecho hace poco, cuando David Cameron recurrió a la seguridad de los niños para instaurar el filtro de contenidos en Internet... que al final se ha llevado también otras páginas inocentes por delante. En el caso de Google y este escaneo automático, la polémica está servida.