No Robots(.txt): Cómo pedir a ChatGPT y Google Bard que no usen tu sitio web para entrenamiento

Tanto OpenAI como Google han publicado una guía para los propietarios de sitios web que no deseen que ambas empresas utilicen el contenido de sus sitios para entrenar sus grandes modelos lingüísticos (LLM). Llevamos mucho tiempo defendiendo el derecho a scrapear sitios web proceso de utilizar un ordenador para cargar y leer páginas de un sitio web para su posterior análisis- como herramienta para la investigación, el periodismo y los archiveros. Creemos que esta práctica sigue siendo lícita cuando se recopilan datos de entrenamiento para la IA generativa, pero la cuestión de si algo debe ser ilegal es diferente de si puede considerarse grosero, desmañado o desagradable. A medida que se desarrollan las normas sobre qué tipos de scraping y qué usos de los datos obtenidos se consideran aceptables, resulta útil disponer de una herramienta para que los operadores de sitios web indiquen automáticamente sus preferencias a los rastreadores. Pedir a OpenAI y Google (y a cualquier otro que decida respetar la preferencia) que no incluyan raspados de su sitio en sus modelos es un proceso sencillo siempre que pueda acceder a la estructura de archivos de su sitio.

Ya hemos hablado antes de cómo estos modelos utilizan el arte para entrenarse, y la idea general y el proceso son los mismos para el texto. Los investigadores llevan mucho tiempo utilizando colecciones de datos extraídos de Internet para estudios sobre censura, malware, sociología, lenguaje y otras aplicaciones, incluida la IA generativa. Hoy en día, los investigadores, tanto académicos como con ánimo de lucro, recopilan datos de entrenamiento para la IA utilizando bots que salen a buscar por toda la web y "raspan" o almacenan el contenido de cada sitio que encuentran. Esto puede utilizarse para crear herramientas basadas exclusivamente en texto, o un sistema puede recopilar imágenes que puedan asociarse a un texto determinado e intentar establecer conexiones entre las palabras y las imágenes durante el entrenamiento. El resultado final, al menos en la actualidad, son los chatbots que hemos visto en forma de Google Bard y ChatGPT.

A muchas empresas con productos de IA similares, como Anthropic, Amazon y muchas otras, les tranquilizaría anunciar que respetarán peticiones similares.

Si no deseas que el contenido de su sitio web se utilice para esta formación, puede pedir a los robots desplegados por Google y Open AI que omitan su sitio. Tenga en cuenta que esto sólo se aplica a futuros raspados. Si Google u OpenAI ya tienen datos de su sitio, no los eliminarán. Tampoco detiene a las innumerables empresas que están formando sus propios LLM y no afecta a nada que hayas publicado en otros sitios, como redes sociales o foros. Tampoco detendría los modelos que se entrenan con grandes conjuntos de datos de sitios web raspados que no están afiliados a una empresa específica. Por ejemplo, el GPT-3 de OpenAI y el LLaMa de Meta se entrenaron utilizando datos recogidos principalmente de Common Crawl, un archivo de código abierto de grandes partes de Internet que se utiliza habitualmente para investigaciones importantes. Puedes bloquear Common Crawl, pero al hacerlo impides que el rastreador web utilice tus datos en todos sus conjuntos de datos, muchos de los cuales no tienen nada que ver con la IA.

No hay ningún requisito técnico para que un bot obedezca tus peticiones. Actualmente, solamente Google y OpenAI han anunciado que esta es la forma de excluirse, por lo que es posible que otras empresas de IA no se preocupen en absoluto por esto, o que añadan sus propias instrucciones para excluirse. Pero tampoco bloquea ningún otro tipo de scraping que se utilice para la investigación o por otros medios, así que si en general estás a favor del scraping, pero te incomoda el uso del contenido de tu sitio web en el conjunto de entrenamiento de IA de una corporación, este es un paso que puedes dar.

Antes de pasar al cómo, tenemos que explicar qué es exactamente lo que vas a editar para hacerlo.

¿Qué es un Robots.txt?

Para pedir a estas empresas que no rastreen su sitio, debe editar (o crear) un archivo ubicado en su sitio web llamado "robots.txt". Un robots.txt es un conjunto de instrucciones para bots y rastreadores web. Hasta ahora, se utilizaba principalmente para proporcionar información útil a los motores de búsqueda cuando sus robots rastreaban la web. Si los propietarios de sitios web quieren pedir a un motor de búsqueda específico u otro bot que no escanee su sitio, pueden introducirlo en su archivo robots.txt. Los robots siempre pueden ignorar esta petición, pero muchos servicios de rastreo la respetan.

Todo esto puede sonar bastante técnico, pero en realidad no es más que un pequeño archivo de texto situado en la carpeta raíz de su sitio, como "https://www.example.com/robots.txt". Cualquiera puede ver este archivo en cualquier sitio web. Por ejemplo, aquí está el archivo robots.txt de The New York Times, que actualmente bloquea tanto ChatGPT como Bard.

Si gestionas tu propio sitio web, deberías tener alguna forma de acceder a la estructura de archivos de ese sitio, ya sea a través del portal web de tu proveedor de alojamiento o por FTP. Es posible que tenga que consultar la documentación de su proveedor para averiguar cómo acceder a esta carpeta. En la mayoría de los casos, su sitio ya tendrá un archivo robots.txt creado, aunque esté en blanco, pero si necesita crear un archivo, puede hacerlo con cualquier editor de texto sin formato. Google ofrece orientación al respecto aquí.

La EFF no utilizará estas banderas porque creemos que el scraping es una herramienta poderosa para la investigación y el acceso a la información.

Qué incluir en tu Robots.txt para bloquear ChatGPT y Google Bard

Con todo esto fuera del camino, esto es lo que debe incluir en el archivo robots.txt de su sitio si no desea que ChatGPT y Google utilicen el contenido de su sitio para entrenar sus modelos generativos de IA. Si desea cubrir la totalidad de su sitio, añada estas líneas a su archivo robots.txt:

ChatGPT

User-agent: GPTBot

Disallow: /

Google Bard

User-agent: Google-Extended

Disallow: /

También puedes limitarlo para bloquear el acceso sólo a determinadas carpetas de tu sitio. Por ejemplo, quizá no te importe que la mayoría de los datos de tu sitio se utilicen para formación, pero tienes un blog que utilizas como diario. Puedes excluir carpetas específicas. Por ejemplo, si el blog se encuentra en yoursite.com/blog, usarías esto:

ChatGPT

User-agent: GPTBot

Disallow: /blog

Google Bard

User-agent: Google-Extended

Disallow: /blog

Como ya se ha mencionado, en la EFF no utilizaremos estas banderas porque creemos que el scraping es una herramienta poderosa para la investigación y el acceso a la información; queremos que la información que estamos proporcionando se difunda a lo largo y ancho y que esté representada en las salidas y respuestas proporcionadas por los LLM. Por supuesto, los propietarios de sitios web individuales tienen puntos de vista diferentes para sus blogs, portafolios o cualquier otro uso que le den a su sitio web. Estamos a favor de los medios para que la gente exprese sus preferencias, y aliviaría muchas mentes que otras empresas con productos de IA similares, como Anthropic, Amazon e innumerables otras, anunciaran que respetarían peticiones similares.

Security Education

Related Updates

Deeplinks Blog by Cory Doctorow | June 28, 2024

How the FTC Can Make the Internet Safe for Chatbots

No points for guessing the subject of the first question the Wall Street Journal asked FTC Chair Lina Khan: of course it was about AI.Between the hype, the lawmaking, the saber-rattling, the trillion-dollar market caps, and the predictions of impending civilizational collapse, the AI discussion has become as...

Deeplinks Blog by Matthew Guariglia | May 8, 2024

What Can Go Wrong When Police Use AI to Write Reports?

Axon—the makers of widely-used police body cameras and tasers (and that also keeps trying to arm drones)—has a new product: AI that will write police reports for officers. Draft One is a generative large language model machine learning system that reportedly takes audio from body-worn cameras...

Deeplinks Blog by Matthew Guariglia | March 20, 2024

The Tech Apocalypse Panic is Driven by AI Boosters, Military Tacticians, and Movies

There has been a tremendous amount of hand wringing and nervousness about how so-called artificial intelligence might end up destroying the world. The fretting has only gotten worse as a result of a U.S. State Department-commissioned report on the security risk of weaponized AI.Whether these messages come from...

Deeplinks Blog by Cooper Quintin | January 31, 2024

Worried About AI Voice Clone Scams? Create a Family Password

Your grandfather receives a call late at night from a person pretending to be you. The caller says that you are in jail or have been kidnapped and that they need money urgently to get you out of trouble. Perhaps they then bring on a fake police officer or kidnapper...

Deeplinks Blog by Corynne McSherry | January 19, 2024

La Ley contra el Fraude AI crea más problemas de los que resuelve

Los creadores tienen motivos para desconfiar del futuro de la IA generativa. Por un lado, aunque la GenAI puede ser una valiosa herramienta para la creatividad, también puede utilizarse para engañar al público y perturbar los mercados existentes del trabajo creativo. A los artistas, en particular, les preocupa...

Deeplinks Blog by Jacob Hoffman-Andrews | January 5, 2024

Una marca de agua IA no frenará la desinformación

La IA generativa permite producir montones y montones de imágenes y palabras con gran rapidez. Estaría bien que hubiera alguna forma de distinguir de forma fiable los contenidos generados por IA de los generados por humanos. Ayudaría a la gente a evitar interminables discusiones con bots en Internet o a...

Deeplinks Blog by Jason Kelley | November 16, 2023

To Best Serve Students, Schools Shouldn’t Try to Block Generative AI, or Use Faulty AI Detection Tools

Generative AI gained widespread attention earlier this year, but one group has had to reckon with it more quickly than most: educators. Teachers and school administrators have struggled with two big questions: should the use of generative AI be banned? And should a school implement new tools to detect when...

Whitepaper

La privacidad ante todo: Una mejor manera de abordar los daños en línea

ContenidosResumen ejecutivo Desglose: ¿Qué aspecto tiene una legislación integral sobre protección de datos? Esbozar el panorama: Qué podría conseguirse con una verdadera protección de la privacidad Proteger la salud mental de los niños Apoyo al periodismo Proteger el acceso a la...

Deeplinks Blog by Kit Walsh | October 31, 2023

La EFF a la Oficina de Derechos de Autor: Los derechos de autor son efectivamente un mazo, pero no se apuren en golpear la IA Generativa

La IA generativa ha provocado un gran revuelo, temor y especulación. Los tribunales están empezando a analizar cómo se aplican las leyes tradicionales de derechos de autor a la creación y el uso de estas tecnologías. En esta brecha ha entrado la Oficina de Derechos de Autor de Estados Unidos...

Deeplinks Blog by Corynne McSherry | July 18, 2023

Un amplio derecho federal de publicidad es una respuesta arriesgada a los problemas de la IA generativa

A medida que los usuarios siguen experimentando con herramientas de IA generativa, los artistas temen cada vez más que el uso de estas herramientas para imitar sus respectivos "estilos" les deje fuera del negocio. Además de la ya famosa canción generada por IA en la que parecían participar Drake y...

Security Education

¿Qué es un Robots.txt?

Qué incluir en tu Robots.txt para bloquear ChatGPT y Google Bard

Related Issues

Related Issues

No Robots(.txt): Cómo pedir a ChatGPT y Google Bard que no usen tu sitio web para entrenamiento

No Robots(.txt): Cómo pedir a ChatGPT y Google Bard que no usen tu sitio web para entrenamiento

¿Qué es un Robots.txt?

Qué incluir en tu Robots.txt para bloquear ChatGPT y Google Bard

Related Issues

Join EFF Lists

Related Updates

Related Issues

Follow EFF:

Contact

About

Issues

Updates

Press

Donate