Tanto OpenAI como Google han publicado una guía para los propietarios de sitios web que no deseen que ambas empresas utilicen el contenido de sus sitios para entrenar sus grandes modelos lingüísticos (LLM). Llevamos mucho tiempo defendiendo el derecho a scrapear sitios web proceso de utilizar un ordenador para cargar y leer páginas de un sitio web para su posterior análisis- como herramienta para la investigación, el periodismo y los archiveros. Creemos que esta práctica sigue siendo lícita cuando se recopilan datos de entrenamiento para la IA generativa, pero la cuestión de si algo debe ser ilegal es diferente de si puede considerarse grosero, desmañado o desagradable. A medida que se desarrollan las normas sobre qué tipos de scraping y qué usos de los datos obtenidos se consideran aceptables, resulta útil disponer de una herramienta para que los operadores de sitios web indiquen automáticamente sus preferencias a los rastreadores. Pedir a OpenAI y Google (y a cualquier otro que decida respetar la preferencia) que no incluyan raspados de su sitio en sus modelos es un proceso sencillo siempre que pueda acceder a la estructura de archivos de su sitio.

Ya hemos hablado antes de cómo estos modelos utilizan el arte para entrenarse, y la idea general y el proceso son los mismos para el texto. Los investigadores llevan mucho tiempo utilizando colecciones de datos extraídos de Internet para estudios sobre censura, malware, sociología, lenguaje y otras aplicaciones, incluida la IA generativa. Hoy en día, los investigadores, tanto académicos como con ánimo de lucro, recopilan datos de entrenamiento para la IA utilizando bots que salen a buscar por toda la web y "raspan" o almacenan el contenido de cada sitio que encuentran. Esto puede utilizarse para crear herramientas basadas exclusivamente en texto, o un sistema puede recopilar imágenes que puedan asociarse a un texto determinado e intentar establecer conexiones entre las palabras y las imágenes durante el entrenamiento. El resultado final, al menos en la actualidad, son los chatbots que hemos visto en forma de Google Bard y ChatGPT.

A muchas empresas con productos de IA similares, como Anthropic, Amazon y muchas otras, les tranquilizaría anunciar que respetarán peticiones similares.

Si no deseas que el contenido de su sitio web se utilice para esta formación, puede pedir a los robots desplegados por Google y Open AI que omitan su sitio. Tenga en cuenta que esto sólo se aplica a futuros raspados. Si Google u OpenAI ya tienen datos de su sitio, no los eliminarán. Tampoco detiene a las innumerables empresas que están formando sus propios LLM y no afecta a nada que hayas publicado en otros sitios, como redes sociales o foros. Tampoco detendría los modelos que se entrenan con grandes conjuntos de datos de sitios web raspados que no están afiliados a una empresa específica. Por ejemplo, el GPT-3 de OpenAI y el LLaMa de Meta se entrenaron utilizando datos recogidos principalmente de Common Crawl, un archivo de código abierto de grandes partes de Internet que se utiliza habitualmente para investigaciones importantes. Puedes bloquear Common Crawl, pero al hacerlo impides que el rastreador web utilice tus datos en todos sus conjuntos de datos, muchos de los cuales no tienen nada que ver con la IA.

No hay ningún requisito técnico para que un bot obedezca tus peticiones. Actualmente, solamente Google y OpenAI han anunciado que esta es la forma de excluirse, por lo que es posible que otras empresas de IA no se preocupen en absoluto por esto, o que añadan sus propias instrucciones para excluirse. Pero tampoco bloquea ningún otro tipo de scraping que se utilice para la investigación o por otros medios, así que si en general estás a favor del scraping, pero te incomoda el uso del contenido de tu sitio web en el conjunto de entrenamiento de IA de una corporación, este es un paso que puedes dar.

Antes de pasar al cómo, tenemos que explicar qué es exactamente lo que vas a editar para hacerlo.

¿Qué es un Robots.txt?

Para pedir a estas empresas que no rastreen su sitio, debe editar (o crear) un archivo ubicado en su sitio web llamado "robots.txt". Un robots.txt es un conjunto de instrucciones para bots y rastreadores web. Hasta ahora, se utilizaba principalmente para proporcionar información útil a los motores de búsqueda cuando sus robots rastreaban la web. Si los propietarios de sitios web quieren pedir a un motor de búsqueda específico u otro bot que no escanee su sitio, pueden introducirlo en su archivo robots.txt. Los robots siempre pueden ignorar esta petición, pero muchos servicios de rastreo la respetan.

Todo esto puede sonar bastante técnico, pero en realidad no es más que un pequeño archivo de texto situado en la carpeta raíz de su sitio, como "https://www.example.com/robots.txt". Cualquiera puede ver este archivo en cualquier sitio web. Por ejemplo, aquí está el archivo robots.txt de The New York Times, que actualmente bloquea tanto ChatGPT como Bard.

Si gestionas tu propio sitio web, deberías tener alguna forma de acceder a la estructura de archivos de ese sitio, ya sea a través del portal web de tu proveedor de alojamiento o por FTP. Es posible que tenga que consultar la documentación de su proveedor para averiguar cómo acceder a esta carpeta. En la mayoría de los casos, su sitio ya tendrá un archivo robots.txt creado, aunque esté en blanco, pero si necesita crear un archivo, puede hacerlo con cualquier editor de texto sin formato. Google ofrece orientación al respecto aquí.

La EFF no utilizará estas banderas porque creemos que el scraping es una herramienta poderosa para la investigación y el acceso a la información.

Qué incluir en tu Robots.txt para bloquear ChatGPT y Google Bard

Con todo esto fuera del camino, esto es lo que debe incluir en el archivo robots.txt de su sitio si no desea que ChatGPT y Google utilicen el contenido de su sitio para entrenar sus modelos generativos de IA. Si desea cubrir la totalidad de su sitio, añada estas líneas a su archivo robots.txt:

ChatGPT

User-agent: GPTBot

Disallow: /

Google Bard

User-agent: Google-Extended

Disallow: /

También puedes limitarlo para bloquear el acceso sólo a determinadas carpetas de tu sitio. Por ejemplo, quizá no te importe que la mayoría de los datos de tu sitio se utilicen para formación, pero tienes un blog que utilizas como diario. Puedes excluir carpetas específicas. Por ejemplo, si el blog se encuentra en yoursite.com/blog, usarías esto:

ChatGPT

User-agent: GPTBot

Disallow: /blog

Google Bard

User-agent: Google-Extended

Disallow: /blog

Como ya se ha mencionado, en la EFF no utilizaremos estas banderas porque creemos que el scraping es una herramienta poderosa para la investigación y el acceso a la información; queremos que la información que estamos proporcionando se difunda a lo largo y ancho y que esté representada en las salidas y respuestas proporcionadas por los LLM. Por supuesto, los propietarios de sitios web individuales tienen puntos de vista diferentes para sus blogs, portafolios o cualquier otro uso que le den a su sitio web. Estamos a favor de los medios para que la gente exprese sus preferencias, y aliviaría muchas mentes que otras empresas con productos de IA similares, como Anthropic, Amazon e innumerables otras, anunciaran que respetarían peticiones similares.