Amazon investiga a Perplexity por el posible uso de contenidos web sin permiso

AWS alojó un servidor vinculado a la empresa de búsquedas con IA respaldada por la familia Bezos y Nvidia, que parece haber sido usado para obtener contenidos web de medios de comunicación, lo que derivó en una investigación sobre posibles infracciones de las condiciones de servicio.
Persona con telfono delante del logo de Perplexity AI en la pantalla de una computadora
El crawler de Perplexity parece dedicarse al rastreo generalizado de sitios web de noticias que prohíben a los bots acceder a su contenido.Artur Widak/NurPhoto/Getty Images

La división de servicios en la nube de Amazon inició una investigación sobre Perplexity AI. según se enteró WIRED, la cuestión es determinar si la startup de búsquedas con inteligencia artificial (IA) está infringiendo las normas de Amazon Web Services (AWS) al raspar o “escarbar” en sitios web (web scraping) que intentaban impedírselo.

Un representante de AWS, que habló con WIRED con la condición de que no se revelara su nombre, confirmó la investigación de la empresa sobre Perplexity. WIRED había descubierto anteriormente que la startup, que cuenta con el respaldo del fondo familiar de Jeff Bezos y de Nvidia, y que recientemente fue valorada en 3,000 millones de dólares, parece extraer los contenidos de sitios web que prohiben el acceso mediante el Protocolo de Exclusión de Robots o Bots, un estándar habitual en internet. Aunque el protocolo no es jurídicamente vinculante, las condiciones de servicio sí suelen serlo.


Photo of copies coming out of a machine within the shape of a brain, surrounded by glitchy Wired headlines
Una investigación de WIRED demuestra que la empresa de búsqueda con base en inteligencia artificial a la que Forbes acusa de robar su contenido está haciendo scraping subrepticiamente e inventando cosas de la nada.

Perplexity y el Protocolo de Exclusión de Bots

El Protocolo de Exclusión de Robots es una norma web con décadas de antigüedad que consiste en colocar un archivo de texto sin formato (como wired.com/robots.txt) en un dominio para indicar a qué páginas no deben acceder los robots y rastreadores (crawlers) automatizados. Aunque las compañías que emplean rastreadores pueden optar por ignorar este estándar, la mayoría lo ha respetado tradicionalmente. El vocero de Amazon informó a WIRED que los clientes de AWS deben acatar la norma robots.txt al rastrear sitios web.

“Los términos de AWS prohíben a los clientes utilizar nuestros servicios para cualquier actividad ilegal, y son responsables de cumplir con nuestras condiciones y todas las leyes aplicables”, destacó el representante en una declaración.

El escrutinio de las prácticas de Perplexity es consecuencia de un informe de Forbes del 11 de junio que acusaba a la startup de robar al menos uno de sus artículos. Las investigaciones de WIRED confirmaron la práctica y hallaron más pruebas de abuso de web scraping y plagio por parte de sistemas vinculados al chatbot de búsqueda impulsado por IA de Perplexity. Los ingenieros de Condé Nast, empresa matriz de WIRED, bloquean el rastreador de Perplexity en todos sus sitios web mediante un archivo robots.txt. Pero encontramos que la compañía tenía acceso a un servidor que usaba una dirección IP no revelada, 44.221.181.252, que visitó propiedades de Condé Nast por lo menos cientos de veces en los últimos tres meses, aparentemente para raspar sitios web de la editorial.

La máquina asociada a Perplexity parece dedicarse al rastreo generalizado de sitios web de noticias que prohíben a los bots acceder a su contenido. Representantes de The Guardian, Forbes y The New York Times también aseguran haber detectado la dirección IP visitando repetidamente sus servidores.

WIRED rastreó la dirección IP hasta una máquina virtual conocida como instancia de Elastic Compute Cloud (EC2) alojada en AWS, que inició su investigación después de que planteáramos si el uso de la infraestructura de AWS para raspar sitios web que lo prohibían infringía las condiciones de servicio de la compañía.

La semana pasada, Aravind Srinivas, CEO de Perplexity, respondió a la investigación de WIRED indicando primero que las preguntas que planteamos a la empresa “reflejan un profundo y fundamental malentendido sobre el funcionamiento de Perplexity y de internet”. Srinivas declaró entonces a Fast Company que la dirección IP secreta que WIRED observó raspando los sitios web de Condé Nast y una página de prueba que creamos era gestionada por una compañía externa que realiza servicios de rastreo e indexación web. Se negó a dar el nombre, alegando un acuerdo de confidencialidad. Cuando le cuestionamos si le solicitaría al tercero que dejara de rastrear WIRED, Srinivas contestó: “Es complicado”.

Sara Platnick, vocera de Perplexity, comenta a WIRED que la empresa respondió a las preguntas de Amazon el miércoles y calificó la investigación de procedimiento estándar. Platnick afirma que Perplexity no introdujo cambios en su operación como reacción a las inquietudes de Amazon.

“Nuestro PerplexityBot, que se ejecuta en AWS, respeta robots.txt, y hemos confirmado que los servicios controlados por Perplexity no realizan un rastreo de ninguna forma que infrinja las Condiciones de servicio de AWS”, asegura Platnick. Añade, sin embargo, que PerplexityBot ignorará robots.txt cuando un usuario introduzca una URL específica en su consulta, un caso de uso que Platnick describe como “muy poco frecuente”.

“Cuando un usuario indica una URL específica, eso no desencadena un comportamiento de rastreo”, resalta Platnick. “El agente actúa en nombre del usuario para recuperar la URL. Funciona igual que si el propio usuario fuera a una página, copiara el texto del artículo y después lo pegara en el sistema”.

Esta descripción de la funcionalidad de Perplexity confirma los hallazgos de WIRED de que su chatbot ignora robots.txt en ciertos casos.

Digital Content Next es una asociación comercial del sector de los contenidos digitales que cuenta entre sus miembros con The New York Times, The Washington Post y Condé Nast. El año pasado, la organización compartió un borrador de principios para regir la IA generativa con el fin de evitar posibles infracciones de los derechos de autor. Jason Kint, su CEO, menciona a WIRED que si las acusaciones contra Perplexity son ciertas, la empresa está violando muchos de esos principios.

“Por defecto, las empresas de IA deben asumir que no tienen derecho a tomar y reutilizar el contenido de las editoriales sin permiso”, subraya Kint. Si Perplexity se salta las condiciones de servicio o robots.txt, agrega, “deberían encenderse las alarmas de que está ocurriendo algo indebido”.

Artículo publicado originalmente en WIRED. Adaptado por Andrei Osornio.


Retrato de Aravind Srinivas, CEO de Perplexity
Aravind Srinivas creció en la misma ciudad que Sundar Pichai y desarrolló una obsesión por la empresa mucho antes de lanzar su propia startup de búsqueda por IA.