LargeChevron

Ocho nombres figuran como autores en "Attention Is All You Need" ("Todo lo que necesitas es atención"), un artículo científico escrito en la primavera de 2017. Todos ellos eran investigadores de Google, aunque para entonces uno había abandonado la empresa. Cuando el colaborador más veterano, Noam Shazeer, vio un primer borrador se sorprendió de que su nombre apareciera en primer lugar, lo que sugería que su contribución era primordial. "No era lo que yo tenía en mente", dijo.

Noam Shazeer, cofundador y CEO de Character AI

Siempre es un ejercicio delicado decidir cómo incluir los nombres en una lista de autores: quién se lleva el codiciado primer puesto y quién queda relegado a un segundo plano. Especialmente en un caso como este, en el que cada participante dejó una huella en un verdadero esfuerzo de grupo. Cuando los investigadores se apresuraron a terminar su artículo, decidieron revertir el orden de los colaboradores. Añadieron un asterisco a cada nombre y una nota a pie de página en el que se leía: “Contribuyente de igual peso. El orden de la lista es aleatorio". Los autores enviaron el artículo a una prestigiosa conferencia de inteligencia artificial (IA) justo antes de la fecha límite y, con ello, dieron el pistoletazo de arranque a una revolución.

A punto de cumplirse su séptimo aniversario, el artículo ha alcanzado un estatus legendario. Los autores partieron de una tecnología floreciente, una variedad de inteligencia artificial (IA) llamada red neuronal y la convirtieron en algo más: un sistema digital tan potente que su resultado puede parecer el producto de una inteligencia extraterrestre. Esta arquitectura, denominada "transformadores", es la salsa no tan secreta que se esconde detrás de todos esos alucinantes productos de IA, como ChatGPT y generadores gráficos como Dall-E y Midjourney. Shazeer bromea diciendo que, si hubiera sabido lo famoso que se iba a hacer el artículo, “quizá se habría preocupado más por el orden de los autores”. Los ocho firmantes son ahora microcelebridades. "Hay gente que me pide selfies, ¡porque estoy en un artículo!", dice Llion Jones, que es, al azar, el nombre número cinco.

Llion Jones, cofundador de Sakana AI.

"Sin los transformadores no creo que estuviéramos aquí", dice Geoffrey Hinton, que no es uno de los autores, pero quizá sea también el científico de IA más destacado del mundo. Se refiere a los tiempos que vivimos, en los que OpenAI y otras empresas crean sistemas que rivalizan con el rendimiento humano y, en algunos casos, lo superan.

Los ocho autores han abandonado Google. Al igual que millones de personas, ahora trabajan de alguna manera con sistemas impulsados por lo que crearon en 2017. Hablé con los ocho para reconstruir la anatomía de un gran avance, una reunión de mentes humanas para crear una máquina que bien podría guardarse para sí misma la última palabra.

La historia de los transformadores comienza con el cuarto de los ocho nombres: Jakob Uszkoreit.

Jacob Uszkoreit, cofundador y CEO de Inceptive.

Uszkoreit es hijo de Hans Uszkoreit, un conocido lingüista computacional. A finales de los 60, Hans fue encarcelado durante 15 meses en su natal Alemania Oriental por protestar contra la invasión soviética de Checoslovaquia. Tras su liberación, escapó a Alemania Occidental y estudió informática y lingüística en Berlín. Cuando nació Jakob, trabajaba en un laboratorio de inteligencia artificial del instituto de investigación SRI de Menlo Park, California. Finalmente, la familia regresó a Alemania, donde Jakob fue a la universidad. No tenía intención de dedicarse a los idiomas, pero cuando iniciaba sus estudios de posgrado, hizo sus prácticas en Google, en la oficina de Mountain View, donde aterrizó en el grupo de traducción de la empresa. Estaba en el negocio familiar. Abandonó sus planes de doctorado y, en 2012, decidió unirse a un equipo de Google que trabajaba en un sistema que pudiera responder a las preguntas de los usuarios en la propia página de búsqueda sin desviarlos a otros sitios web. Apple acababa de anunciar Siri, un asistente virtual que prometía dar respuestas simultáneas a conversaciones informales, y los mandamases de Google se olieron una enorme amenaza competitiva: Siri podría comerse su tráfico de búsqueda. Empezaron a prestar mucha más atención al nuevo grupo de Uszkoreit.

"Fue un falso pánico", dice Uszkoreit. Siri nunca amenazó realmente a Google. Pero agradeció la oportunidad de sumergirse en sistemas en los que las computadoras podían entablar una especie de diálogo con nosotros. En aquella época, las redes neuronales recurrentes habían empezado a superar de repente a otros métodos de ingeniería de IA. Las redes constan de muchas capas, a través de las cuales se pasa y repasa información para identificar las mejores respuestas. Las redes neuronales estaban cosechando enormes éxitos en campos como el reconocimiento de imágenes y, de repente, se estaba produciendo un renacimiento de la IA. Google reorganizaba frenéticamente su plantilla para adoptar estas técnicas. La empresa quería sistemas capaces de producir respuestas similares a las humanas, como autocompletar frases en correos electrónicos o crear chatbots de atención al cliente relativamente sencillos.

Pero el campo se topaba con limitaciones. Las redes neuronales recurrentes tenían dificultades para analizar fragmentos de texto más largos. Por ejemplo, Joe es jugador de béisbol y, después de un buen desayuno, fue al parque y bateó dos hits. Para que "dos hits" tenga sentido, un modelo lingüístico tiene que recordar la parte del béisbol. En términos humanos, tiene que prestar atención. La solución aceptada era algo llamado memoria a corto plazo (LSTM, por sus siglas en inglés), una innovación que permitía a los modelos lingüísticos procesar secuencias de texto más grandes y complejas. Pero la computadora seguía tratando esas secuencias palabra por palabra, una tarea tediosa, y no tenía en cuenta las pistas contextuales que podían aparecer más adelante. “Los métodos que aplicábamos era básicamente poner un parche para tapar una herida. No conseguíamos que el material funcionara a escala”, afirma Uszkoreit.

En 2014, surgió un enfoque diferente al que denominó autoatención, un tipo de red que puede traducir una palabra haciendo referencia a cualquier otro fragmento. Esas partes pueden aclarar la intención de una palabra y ayudar al sistema a producir una buena traducción. "Toma todo en cuenta, te da una forma simple de ver muchas entradas al mismo tiempo y selecciona de forma bastante efectiva", afirma. Aunque los científicos de la IA tienen cuidado de no confundir la metáfora de las redes neuronales con el funcionamiento real del cerebro biológico, Uszkoreit sí parece creer que la autoatención es algo similar a la forma en que los humanos procesan el lenguaje.

Uszkoreit pensó que un modelo de autoatención podría ser más rápido y eficaz que las redes neuronales recurrentes. Además, su forma de tratar la información se adaptaba perfectamente a los potentes chips de procesamiento paralelo que se estaban fabricando en masa para apoyar el auge del aprendizaje automático. En lugar de mirar cada palabra en secuencia, las analiza todas juntas. Uszkoreit sospechaba que, de hacerse bien, la autoatención obtendría mejores resultados.

Nadie pensó que su idea iba a sacudir el mundo, incluido el padre de Uszkoreit, que había ganado dos premios de investigación de la Facultad de Google mientras su hijo trabajaba para la empresa. “La gente levantó las cejas, porque desechaba todas las arquitecturas neuronales existentes. ¿Adiós a las redes neuronales recurrentes? En las conversaciones que mantuve con mi padre en la mesa, no estábamos necesariamente de acuerdo", dice Jakob Uszkoreit.

Uszkoreit convenció a algunos colegas para que realizaran experimentos sobre la autoatención. Su trabajo resultó prometedor y, en 2016, publicaron un artículo al respecto. Los experimentos del equipo solo utilizaban pequeños fragmentos de texto; Uszkoreit quería llevar su investigación más allá, pero ninguno de sus colaboradores estaba interesado. Como los jugadores que abandonan el casino con modestas ganancias, se dedicaron a aplicar las lecciones que habían aprendido. “La cosa funcionó. La gente de ese artículo se entusiasmó con la idea de cosechar los frutos y desplegarlo en una variedad de lugares diferentes en Google, incluyendo la búsqueda y, finalmente, los anuncios. Fue un éxito increíble en muchos sentidos, pero yo no quería dejarlo ahí”, comenta.

Uszkoreit sintió que la autoatención podía asumir tareas mucho mayores. Hay otra forma de hacerlo, argumentaba a cualquiera que quisiera escuchar, y a algunos que no. Trazaba su visión en pizarras blancas en el Edificio 1945, llamado así por su dirección en Charleston Road, en el extremo norte del campus de Google.

Illia Polosukhin, cofundador de Near.

Un día de 2016, Uszkoreit almorzaba en una cafetería de Google con un científico llamado Illia Polosukhin. Polosukhin nació en Ucrania y llevaba casi tres años en Google. Estaba asignado al equipo que daba respuestas a las preguntas directas planteadas en el campo de las búsquedas. Pero no iba del todo bien. “Para responder en Google.com, necesitas algo que sea muy barato y de alto rendimiento. Tienes milisegundos para responder", dice Polosukhin. Cuando Illia expuso sus quejas, Uszkoreit no tuvo problema en poner remedio. Sugirió: “¿por qué no usar la autoatención?”.

Polosukhin colaboraba a veces con un colega llamado Ashish Vaswani. Nacido en la India y criado sobre todo en Oriente Medio, había ido a la Universidad del Sur de California para doctorarse en el selecto grupo de traducción automática. Después se trasladó a Mountain View para unirse a Google, concretamente a una nueva organización llamada Google Brain. Ashish describe Brain como un grupo radical que creía que las redes neuronales iban a hacer avanzar la comprensión humana, pero seguía buscando un gran proyecto en el cual colaborar. Su equipo trabajaba en el Edificio 1965, al lado del equipo lingüístico de Polosukhin, y oyó hablar de la idea de la autoatención. ¿Podría ser ese el proyecto? Aceptó trabajar en él.

Ashish Vaswani, cofundador y CEO de Essential AI.

Los tres investigadores redactaron un documento de diseño titulado "Transformadores: autoatención iterativa y procesamiento para diversas tareas". El nombre "transformadores" lo eligieron desde el día cero, comenta Uszkoreit. La idea era que este mecanismo transformara la información que recibía y permitiera al sistema extraer tanta información como un ser humano, o al menos dar la ilusión de que lo hacía. Además, Uszkoreit tenía buenos recuerdos de su infancia, cuando jugaba con las figuras de acción de Hasbro. "De pequeño tenía dos muñequitos de Transformers", dice. El documento terminaba con una imagen caricaturesca de seis Transformers en un terreno montañoso, lanzándose rayos láser unos a otros.

También había algo de arrogancia en la frase con la que empezaba el documento: "Somos increíbles".

A principios de 2017, Polosukhin dejó Google para fundar su propia empresa. Para entonces ya se habían incorporado nuevos colaboradores. Una ingeniera india llamada Niki Parmar había estado trabajando para una empresa de software estadounidense en la India cuando se trasladó a Estados Unidos. Obtuvo un máster en la Universidad del Sur de California en 2015 y fue reclutada por todas las grandes empresas tecnológicas. Eligió Google. Cuando empezó, se unió a Uszkoreit y trabajó en variantes del modelo para mejorar la búsqueda.

Niki Parmar, cofundadora de Essential AI.

Otro nuevo miembro fue Llion Jones. Nacido y criado en Gales, le encantaban las computadoras "porque eran especiales". En la Universidad de Birmingham hizo un curso de IA y sintió curiosidad por las redes neuronales, que se presentaban como una curiosidad histórica. Obtuvo su máster en julio de 2009 y, al no encontrar trabajo durante la recesión, vivió subsidiado por el gobierno durante meses. Encontró trabajo en una empresa local y luego se presentó a Google como un "Ave María". Consiguió el puesto y acabó aterrizando en Google Research, donde su jefe era Polosukhin. Un día, Jones oyó hablar del concepto de autoatención a un compañero de trabajo llamado Mat Kelcey, y más tarde se unió al Equipo Transformers. Cuando Jones se encontró con Kelcey y le informó sobre el proyecto de los transformadores, Kelcey no se lo creyó. “Le dije que no estaba seguro de que fuera a funcionar, lo que es básicamente la mayor predicción incorrecta de mi vida”.

El trabajo del transformador atrajo a otros investigadores de Google Brain que también intentaban mejorar grandes modelos lingüísticos. Esta tercera oleada incluía a Łukasz Kaiser, un informático teórico de origen polaco, y a su becario, Aidan Gomez. Él había crecido en un pequeño pueblo agrícola de Ontario, Canadá; donde cada primavera, su familia aprovechaba los árboles de arce para obtener jarabe. En su tercer año en la Universidad de Toronto, se enamoró de la IA y se unió al grupo de aprendizaje automático del laboratorio de Geoffrey Hinton. Para ampliar su trabajo, se puso en contacto con gente de Google que había escrito artículos interesantes. Kaiser mordió el anzuelo y lo invitó a hacer prácticas. No fue hasta meses más tarde cuando Gómez se enteró de que esas prácticas estaban destinadas a estudiantes de doctorado, no a estudiantes universitarios como él.

Rápidamente, Kaiser y Gómez comprendieron que la autoatención parecía una solución prometedora y más radical al problema que estaban abordando. "Mantuvimos una conversación deliberada sobre si queríamos fusionar los dos proyectos", dice Gómez. La respuesta fue un sí.

El equipo de transformadores se puso a construir un modelo de autoatención para traducir texto de un idioma a otro. Midieron su rendimiento con un parámetro llamado BLEU, que compara el resultado de una máquina con el trabajo de un traductor humano. Desde el principio, su nuevo modelo funcionó bien. "Habíamos pasado de no tener ninguna prueba de concepto a tener algo que mínimo estaba a la altura de las mejores aproximaciones alternativas a las LSTM", afirma Uszkoreit. Pero comparado con la memoria a corto plazo, no era mejor.

Habían llegado a la cúspide, hasta que un día de 2017 Noam Shazeer se enteró de su proyecto por accidente. Shazeer era un Googler veterano que se había unido a la compañía en 2000 y una leyenda interna al colaborar en el primer sistema de anuncios de la compañía. Shazeer llevaba cinco años trabajando en el aprendizaje profundo y recientemente se había interesado por los grandes modelos lingüísticos. Pero estos modelos no estaban ni cerca de producir las conversaciones fluidas que él creía posibles.

Shazeer caminaba por un pasillo del edificio 1965 y pasó por delante del espacio de trabajo de Kaiser. "Recuerdo que Ashish estaba hablando de la idea de utilizar la autoatención, y Niki estaba muy emocionada al respecto. Me dije, ‘vaya, ¡es una gran idea! Parece un grupo divertido e inteligente de gente haciendo algo prometedor’". Shazeer encontraba irritantes las redes neuronales recurrentes existentes y pensó: "¡Vamos a sustituirlas!".

La incorporación de Shazeer al grupo fue decisiva. "Estos mecanismos teóricos o intuitivos, como la autoatención, siempre requieren una implementación muy cuidadosa, a menudo a cargo de un pequeño número de 'magos' experimentados, para dar siquiera señales de vida", dice Uszkoreit. Shazeer empezó a hacer magia de inmediato. Decidió escribir su propia versión del código del equipo Transformer. "Tomé la idea básica y me la inventé yo mismo", comenta. De vez en cuando le hacía preguntas a Kaiser, pero la mayoría de las veces, "simplemente actuaba durante un rato y volvía y decía 'mira, funciona'". Utilizando lo que los miembros del equipo describirían con palabras como “magia”, "alquimia" y "campanas y silbatos", había llevado el sistema a un nuevo nivel.

"Fue el banderazo de salida", dice Gómez. Estaban motivados y, además, querían llegar a tiempo al 19 de mayo, fecha límite para la presentación de trabajos en el mayor evento de IA del año, la conferencia Neural Information Processing Systems de diciembre. Cuando el invierno de Silicon Valley se convirtió en primavera, el ritmo de los experimentos se aceleró. Probaron dos modelos de transformadores: uno que se produjo con 12 horas de entrenamiento y una versión más potente llamada Big que se entrenó durante tres días y medio. Los pusieron a trabajar en la traducción del inglés al alemán.

El modelo básico superó a todos los competidores, y Big obtuvo una puntuación BLEU que pulverizó decisivamente los récords anteriores, además de ser más eficiente desde el punto de vista computacional. “Lo habíamos hecho en menos tiempo que nadie. Y eso era solo el principio, porque la cifra seguía mejorando. Cuando Uszkoreit se enteró, sacó una vieja botella de champán que tenía en su camioneta de expedición a la montaña", dice Parmar.

Las dos últimas semanas antes de la fecha límite fueron frenéticas. Aunque oficialmente algunos miembros del equipo seguían teniendo escritorios en el edificio 1945, trabajaban sobre todo en el 1965 porque tenía una mejor cafetera espresso en la micrococina. "La gente no dormía", asegura Gómez que, como becario, vivía en un frenesí constante de depuración y también elaboraba las visualizaciones y diagramas de flujo. En este tipo de proyectos es habitual quitar cosas para ver si lo que queda es suficiente para hacer el trabajo.

"Había todas las combinaciones posibles de trucos y módulos: cuál ayuda, cuál no. Quitémoslo. ¿Por qué el modelo se comporta de forma tan poco intuitiva? Es porque no nos acordamos de hacer bien el enmascaramiento. ¿Ya funciona? Bien, pasemos al siguiente. Todos estos componentes de lo que ahora llamamos el transformador fueron el resultado de este ensayo y error iterativo de ritmo extremadamente alto". Las ablaciones, ayudadas por las implementaciones de Shazeer, produjeron “algo minimalista. Noam es un mago”, dice Jones.

Vaswani recuerda que una noche, mientras el equipo redactaba el trabajo, se tumbó en el sofá de la oficina. Mientras miraba las cortinas que separaban el sofá del resto de la habitación, le llamó la atención el estampado de la tela, que le pareció de sinapsis y neuronas. Gómez estaba ahí y Vaswani le dijo que su trabajo iba más allá de la traducción automática. “En última instancia, como ocurre con el cerebro humano, hay que unir todas estas modalidades: habla, audio y visión en una única arquitectura. Tuve la fuerte corazonada de que estábamos ante algo más general”, afirma.

En las altas esferas de Google, sin embargo, el trabajo se consideraba simplemente otro interesante proyecto de IA. Pregunté a varios de los responsables de Transformers si sus jefes los llamaban alguna vez para ponerles al día sobre el proyecto. “Nos dimos cuenta de que se trataba de algo muy importante. Y eso nos llevó a obsesionarnos con una de las frases finales del artículo, donde comentamos el trabajo futuro”, dice Uszkoreit.

Esa frase anticipaba lo que podría venir después: la aplicación de los modelos de transformador a básicamente todas las formas de expresión humana. "Estamos entusiasmados con el futuro de los modelos basados en la atención. Planeamos ampliar el transformador a problemas que impliquen modalidades de entrada y salida distintas del texto e investigar imágenes, audio y vídeo”, escribieron.

Un par de noches antes de la fecha límite, Uszkoreit se dio cuenta de que necesitaban un título. Jones comentó que el equipo se había decantado por el rechazo de las prácticas aceptadas, sobre todo los LSTM, por una técnica: la atención. Jones recordó que los Beatles titularon una canción "All You Need Is Love" ("Todo lo que necesitas es amor"), así que ¿por qué no llamar al artículo "Attention Is All You Need" ("Todo lo que necesitas es atención")?

¿Los Beatles?

“Soy británico. Lo pensé literalmente en cinco segundos. No pensé que lo utilizarían”, dice Jones.

Siguieron recopilando resultados de sus experimentos hasta la fecha límite. "Los números de inglés a francés llegaron como cinco minutos antes de que presentáramos el trabajo. Estaba sentado en la micrococina en 1965, metiendo ese último número", dice Parmar. Con apenas dos minutos de sobra, enviaron el trabajo.

Google, como hacen casi todas las empresas tecnológicas, presentó rápidamente patentes provisionales sobre el trabajo. El motivo no era impedir que otros usaran las ideas, sino aumentar su cartera de patentes con fines defensivos. La filosofía de la empresa es “si la tecnología avanza, Google cosechará los beneficios”.

Cuando el equipo de transformadores tuvo noticias de los revisores de la conferencia, la respuesta fue variada. "Una fue positiva, otra extremadamente positiva y otra decía: 'Esto está bien'", dice Parmar. El artículo fue aceptado para una de las sesiones de la tarde.

En diciembre, el artículo ya era todo un éxito. La sesión del 6 de diciembre, de cuatro horas de duración, estuvo repleta de científicos que querían saber más. Los autores hablaron hasta quedarse afónicos. A las 22:30, cuando se clausuró la sesión, todavía había una multitud. "Los de seguridad tuvieron que decirnos que nos fuéramos", dice Uszkoreit. Quizá el momento más satisfactorio para él fue cuando el informático Sepp Hochreiter se acercó y elogió el trabajo, todo un cumplido, teniendo en cuenta que Hochreiter fue el coinventor de la memoria a corto plazo, que Transformers acababa de convertir en el pilar de la IA.

Transformers no conquistó el mundo al instante, ni siquiera Google. Kaiser recuerda que, más o menos cuando se publicó el artículo, Shazeer propuso a los ejecutivos de Google que la empresa abandonara todo el índice de búsqueda y entrenara una enorme red con transformadores, para modificar la forma en que Google organiza la información. En aquel momento, incluso Kaiser consideró ridícula la idea. Ahora, la opinión generalizada apuntaba a que era una cuestión de tiempo.

Una empresa llamada OpenAI fue mucho más rápida. Poco después de que se publicara el artículo, el investigador jefe de OpenAI, Ilya Sutskever, que había conocido al equipo de transformadores durante su etapa en Google, sugirió a uno de sus científicos, Alex Radford, para que trabajara en la idea. El resultado fueron los primeros productos GPT. Como me dijo el año pasado el director ejecutivo de OpenAI, Sam Altman: "Cuando salió el documento sobre transformadores, no creo que nadie en Google se diera cuenta de lo que significaba".

El panorama internamente es más complicado. "Para nosotros era bastante evidente que los transformadores podían hacer cosas realmente mágicas. Ahora, puedes hacerte la pregunta, ¿por qué no había ChatGPT de Google allá por 2018? Siendo realistas, podríamos haber tenido GPT-3 o incluso 3.5 probablemente en 2019, tal vez 2020. La gran pregunta no es, ¿lo vieron? La pregunta es, ¿por qué no hicimos nada con el hecho de que lo habíamos visto? La respuesta es complicada", dice Uszkoreit.

Aidan Gomez, cofundador y CEO de Cohere.

Muchos críticos tecnológicos señalan la transición de Google de un patio de recreo centrado en la innovación a una burocracia concentrada en la cuenta de resultados. Como dijo Gomez al Financial Times, “No se estaban modernizando”. Eso habría supuesto mucha audacia para una empresa gigante cuya tecnología lideró el sector y cosechó enormes beneficios durante décadas. Google sí empezó a integrar transformadores en productos en 2018, iniciando por su herramienta de traducción. También, ese año, introdujo un nuevo modelo de lenguaje basado en transformadores llamado BERT, que comenzó a aplicar a la búsqueda el año siguiente.

Pero estos cambios bajo el capó parecen tímidos en comparación con el gran salto de OpenAI y la audaz integración de Microsoft de sistemas basados en transformadores en su línea de productos. Cuando el año pasado le pregunté al consejero delegado de Google, Sundar Pichai, por qué su empresa no fue la primera en lanzar un gran modelo lingüístico como ChatGPT, argumentó que en este caso a Google le resultaba ventajoso dejar que otros llevaran la iniciativa: "No tengo del todo claro que hubiera funcionado igual de bien. El hecho es que podemos hacer más después de que la gente haya visto cómo funciona", afirmó.

Lo cierto es que los ocho autores del artículo han abandonado Google. La empresa de Polosukhin, Near, construyó una blockchain cuyos tokens tienen una capitalización de mercado en torno a los 4,000 millones de dólares. Parmar y Vaswani se emparejaron como socios comerciales en 2021 para poner en marcha Adept, con una valoración estimada de 1,000 millones de dólares, y ahora están en su segunda empresa, llamada Essential AI, con 8 millones de dólares de financiación. Sakana AI, de Llion Jones, con sede en Tokio, está valorada en 200 millones de dólares. Shazeer, que salió en octubre de 2021, cofundó Character AI, con valoración estimada de 5,000 millones de dólares. Aidan Gomez, el becario del grupo, cofundó Cohere en Toronto en 2019, con una valoración estimada de 2,200 millones de dólares. La empresa de biotecnología de Jakob Uszkoreit, Inceptive, está valorada en 300 millones de dólares. Todas esas empresas, excepto Near, se basan en la tecnología de transformadores.

Lukasz Kaiser, investigador de OpenAI.

Kaiser es el único que no ha fundado una empresa. Se unió a OpenAI y es uno de los inventores de una nueva tecnología llamada Q*, de la que Altman dijo el año pasado que “empujará hacia atrás el velo de la ignorancia y hacia adelante la frontera del descubrimiento”. Cuando intenté interrogar a Kaiser sobre esto en nuestra entrevista, la persona de relaciones públicas de OpenAI casi saltó sobre de la mesa para silenciarlo.

¿Echa de menos Google a estos fugitivos? Por supuesto, además de otros que han emigrado de la empresa a nuevas startups de IA. Pichai me recordó, cuando le pregunté por las salidas del equipo de transformadores, que OpenAI, la niña mimada de la industria, también ha visto deserciones: “El área de IA es muy, muy dinámica”, dijo. Pero Google puede presumir de haber creado un entorno propicio para la búsqueda de ideas poco convencionales. “En muchos sentidos, Google ha ido por delante, invirtió en las mentes adecuadas y creó el entorno en el que podíamos explorar y superar los límites. No es una locura que se tardara en adoptarlo. Google tenía mucho más en juego”, afirma Parmar.

Sin ese entorno, no hay transformador. No solo todos los autores eran empleados de Google, sino que trabajaban en las mismas oficinas. Los encuentros en los pasillos y las conversaciones escuchadas durante el almuerzo dieron lugar a grandes momentos. El grupo también es culturalmente diverso. Seis de los ocho autores nacieron fuera de Estados Unidos; los otros dos son hijos de dos alemanes con tarjeta verde que residían temporalmente en California y de un estadounidense de primera generación cuya familia había huido de la persecución.

Uszkoreit, desde su oficina de Berlín, afirma que la innovación depende de que se den las condiciones adecuadas. “Se trata de reunir a gente que esté muy entusiasmada con algo y que se encuentre en el momento adecuado de su vida. Si tienes eso, te diviertes mientras lo haces, y estás trabajando en los problemas adecuados y, si tienes suerte, la magia sucede”, asegura.

Algo mágico ocurrió también entre Uszkoreit y su famoso padre. Después de todos esos debates en la mesa, Hans Uszkoreit, según informa su hijo, ha cofundado una empresa que construye grandes modelos lingüísticos. Utilizando transformadores, por supuesto.

Artículo publicado originalmente en WIRED. Adaptado por Alondra Flores.

Así es como ocho empleados de Google inventaron la inteligencia artificial moderna

También te puede interesar…