Mis recuerdos en Facebook e Instagram ahora son datos de entrenamiento para la IA de Meta

Los planes de Meta de aprovechar el contenido personal publicado por los usuarios de Facebook e Instagram para entrenar algoritmos sugieren que nuestras historias digitales están siendo reempaquetadas para enseñarle a la IA sobre la humanidad y cómo imitarla.
Silueta de la cabeza de una IA abrindose frente a mensajes de Facebook pegados con tachuelassobre un fondo negro
Meta anunció que, a partir del 26 de junio, los antiguos posts públicos e incluso los nombres de millones de usuarios de Facebook e Instagram de todo el mundo serían tratados como una cápsula del tiempo de la humanidad y transformados en datos de entrenamiento para la IA.Rosie Struve; Getty Images

En la novela El Manuscrito Hopkins de R. C. Sherriff, los lectores son transportados a un mundo 800 años después de que un cataclismo acabara con la civilización de Occidente. En busca de pistas sobre un espacio en blanco en la historia de su planeta, unos científicos pertenecientes a un nuevo orden mundial descubren las anotaciones de un diario en un páramo inundado de pantanos antes conocido como Inglaterra. Para los habitantes de este nuevo imperio, únicamente a través de este registro de la monótona vida rural de un maestro de escuela jubilado, sus mezquinas vanidades y sus intentos de criar gallinas ganadoras de premios, empiezan a conocer la Gran Bretaña del siglo XX.

Si tuviera que enseñarle a seres futuristas cómo es la vida en la Tierra, alguna vez pensé que podría elaborar una cápsula del tiempo más completa que el mezquino protagonista de Sherriff, Edgar Hopkins. Pero al revisar esta semana mis publicaciones en Facebook de hace una década, noté que posiblemente mi legado sea aún más monótono.


article image
La plataforma se apoya en Marketplaces, Reels y Grupos para atraer la atención de usuarios de entre 18 y 29 años

Nuestro pasado online nos condena… al futuro de la IA

A principios de este mes, Meta anunció que mis actualizaciones de estado de adolescente eran exactamente la clase de contenido que quiere transmitir a las futuras generaciones de inteligencia artificial (IA). A partir del 26 de junio, los antiguos posts públicos, las fotos de las vacaciones e incluso los nombres de millones de usuarios de Facebook e Instagram de todo el mundo serían tratados como una cápsula del tiempo de la humanidad y transformados en datos de entrenamiento para la IA.

Eso significa que mis posts mundanos sobre los plazos de entrega de las tareas universitarias ("3 bebidas energéticas menos 1,000 palabras por escribir"), así como mis fotos de vacaciones anodinas (en una aparezco desplomada sobre el teléfono en un ferry parado), están a punto de formar parte de ese conjunto. El hecho de que estos recuerdos sean tan aburridos, y también muy personales, hace que el interés de Meta por ellos sea más desconcertante.

La empresa aclara que solo le interesan los contenidos que ya son públicos: los mensajes privados, las publicaciones compartidas exclusivamente con amigos y las Stories de Instagram quedan fuera de los límites. A pesar de ello, de repente la IA se está dando un festín de archivos personales que, durante años, han estado acumulando polvo en rincones no visitados de internet. Para quienes nos leen de otras partes del mundo fuera de Europa, la cruzada ya se concretó. El plazo anunciado por Meta únicamente se aplicaba a los europeos. Las publicaciones de los usuarios estadounidenses de Facebook e Instagram, por ejemplo, han estado entrenando a los modelos de IA de Meta desde 2023, según Matthew Pollard, vocero de la compañía.

Meta no es la única empresa que está convirtiendo mi historial online en forraje para la IA. Reece Rogers, de WIRED, descubrió hace poco que la función de búsqueda por IA de Google estaba copiando su trabajo periodístico. Pero averiguar qué restos personales están alimentando exactamente a los futuros chatbots de IA no fue fácil. Algunos sitios en los que he colaborado a lo largo de los años son difíciles de rastrear. La primitiva red social Myspace fue adquirida por Time Inc. en 2016, que a su vez fue comprada por una compañía llamada Meredith Corporation dos años después. Cuando pregunté en Meredith por mi antigua cuenta, me respondieron que Myspace se había convertido en una firma de publicidad, Viant Technology. Tras enviar un email a un contacto de la empresa que figuraba en su sitio web, recibí de vuelta un mensaje indicando que “no se pudo encontrar” la dirección.

Fue más sencillo preguntarle sobre mis cuentas viejas a las compañías que aún siguen activas. La plataforma de blogs Tumblr, propiedad de Automattic, propietaria de WordPress, señaló que, a menos que yo hubiera optado por no participar, los contenidos públicos que subí cuando era adolescente se compartirían con “una pequeña red de socios de contenido e investigación, incluidos los que entrenan modelos de inteligencia artificial”, según un anuncio que hicieron en febrero. YahooMail, que usé durante años, me dijo que una muestra de correos electrónicos antiguos, que aparentemente han sido “anonimizados” y “reunidos”, están siendo “utilizados” internamente por un modelo de IA para hacer tareas como resumir mensajes. LinkedIn, propiedad de Microsoft, también confirmó que mis posts públicos se estaban empleando para entrenar a la IA, aunque se excluyeron algunos detalles “personales” incluidos en ellos, según un vocero de la empresa, que no especificó cuáles eran esos detalles personales.

Además de LinkedIn, las compañías parecían menos propensas a dejar que los algoritmos se dieran un banquete con los mensajes o documentos que yo creaba para el trabajo. El servicio de mensajería ofimática Slack negó informes anteriores según los cuales usaba mensajes de sus clientes para entrenar a la IA. Microsoft también manifestó que el contenido generado en su conjunto de productos para entornos laborales, como Word, Excel, PowerPoint, Outlook (antes Hotmail) y Teams, no se utilizaba para entrenar modelos de base subyacentes. Google también destacó que sus herramientas de trabajo, como las versiones de pago y gratuita de Gmail, quedaban excluidas, aunque los modelos pueden entrenarse con videos de YouTube.

Está claro que Meta no es la única. Pero su reempaquetado de contenidos de Facebook e Instagram es notable debido a la cantidad de personas que usaron las plataformas para documentar hitos bastante personales. Como vivo en Europa, mis publicaciones de Facebook e Instagram están fuera del alcance de la IA de Meta, por ahora. El anuncio por parte de la empresa de sus planes de entrenamiento de la inteligencia artificial provocó una nueva disputa entre la gigante tecnológica y los organismos europeos reguladores de la privacidad, lo que llevó a Meta a suspender temporalmente su intención de aprovechar las publicaciones de los europeos, incluidos los británicos, para entrenar a sus modelos.

Mientras Meta se lamentaba de que su IA necesitara datos procedentes de Europa para comprender las lenguas y culturas regionales, los defensores de la privacidad del grupo austriaco NOYB celebraron la pausa como una tímida victoria. NOYB, una eterna espina clavada en el costado de Meta, ya había presentado quejas en 11 países porque, según argumenta, esta no brindó a los europeos una forma clara de optar por no ser convertidos en datos de entrenamiento; aunque Meta lo niega, resaltando que los usuarios podían rellenar un formulario para ello. “No estamos en contra de que introduzcan la IA”, declaró a WIRED Mickey Manakas, representante de NOYB. “Solo tienen que hacerlo de una manera que cumpla la ley”.

No está claro por cuánto tiempo Meta detendrá sus planes. Y la tendencia más general en la forma en que las empresas tecnológicas manejan la información personal es clara. Nuestras huellas y recuerdos digitales se están convirtiendo en datos de entrenamiento. Si crees que aún estás a tiempo de preparar tu cápsula del tiempo, te equivocas. Tu historia ya está siendo digerida por las entidades que gobernarán nuestro futuro.


Sombra de una persona usando un smartphone
Algunas compañías te dan la opción de no permitir que tu contenido se destine a la IA generativa. Aquí te explicamos cómo recuperar (al menos un poco) el control frente a ChatGPT, Google Gemini y otros modelos y plataformas.