How It’s Made: AI Roadtrip、生成 AI とファンによる Pixel キャンペーン

6月 17, 2024

Trudy Painter Creative Lab

Mathew Ray Creative Lab

Jay Chen Creative Lab

Matthew Carey Creative Lab

Rachel Benner Creative Lab

2 台のスマートフォンがライバルではなくなり、友達になったとしたらどうでしょう？世界一フレンドリーな競争キャンペーン Best Phones Forever が誕生します。このシリーズでは、17 のエピソードを通して、スマートフォンたちをさまざまな冒険に連れ出してきました。その結果、熱心なファンが生まれています。

このファンコミュニティと直接交流することは、常に Best Phones Forever の脚本の一部となっています。昨年、このシリーズを始めたときには、キャンペーンのトーンで LLM をトレーニングし、コミュニティマネージャーが何千ものコメントに対して友情をテーマに返信できるようにしました。生成テクノロジーが急激に進歩したことは、私たちにとって、リアルタイムエンゲージメントの精神をさらに広げるチャンスだと認識しています。

ここでは、Best Phones Forever: AI Roadtrip を紹介します。これは、生成 AI を使ってファンを運転席に座らせ、キャラクターに命を吹き込む最初の実験です。

仕組みを説明しましょう。Instagram リールのエピソードでは、2 つのキャラクターが AI ドライブに出かける様子が説明されています。ファンが場所のアイデアをコメントすると、私たちのチームが専用のツールを使って、カスタム動画を数分で生成して応答します。16 時間以上のできるだけ多くのユニークな返信を作成したいと考えています。

A diagram depicting the 5 steps of the AI Roadtrip campaign.

生成 AI を使ってファン主導のカスタムコンテンツを大量作成する

パートナーの The Mill と Left Field Labs と協力し、Google AI モデルのスタックを使って、機械の効率性と人間の創造性のバランスをとることができるツールを設計しました。このテクノロジーが、他にはない創造的なアプリケーションを着想する手がかりになることを願っています。

実際の動作を確認するには、Instagram で @googlepixel_us にアクセスしてください。

このツールについて

ユーザーがおすすめの場所をコメントすると、その場所（たとえば「グランドキャニオン」）を生成エンジンに入力して、カスタムのアセットを生成します。

シナリオ生成: Gemini 1.5 Pro でコメントの場所に基づいて複数のシナリオを生成し、その場所ならではの情報やユーモアを組み入れます。

画像生成: Imagen でシナリオの状況に一致しそうな一連の背景画像を作成し、冒険のシーンを設定します。

オーディオ生成: 生成されたシナリオから、Cloud Text-to-Speech を使って会話を出力し、スマートフォンの仲間たちに声を与えます。

私たちのクリエイターチームは、それぞれのステップで選択、編集、レビュー、時には再プロンプトを繰り返し、すべての動画が Best Phones Forever の世界観にぴったり一致するようにします。

A diagram that depicts how assets generated with Google AI, including Gemini, Imagen and Cloud Text to Search, are combined in a 3D compositing engine to create the final video reply

返信生成ツールの構成要素

シナリオの生成方法

Gemini によって、キャンペーンのトーンに合ったシナリオを確実に作成できる必要がありました。つまり、適��なキャラクター、長さ、フォーマット、スタイルであると同時に、おも��ろく、ユーザーがすすめた場所に忠実でなければなりません。

一番効果的にこれを行う方法は、長い指示を出すことではなく、プロンプトにたくさんの例を含めることでした。そこでライターが、さまざまな場所でどんな会話が考えられるかを示すため、それぞれの場所で Pixel と iPhone が登場する短いシナリオを書きました。

シナリオ生成プロンプト

これをシステムプロンプトに含めて Gemini に渡すと、2 つのことを実現できます。1 つ目として、それぞれのスマートフォンが順番に 4～6 行の台詞を話すという、シナリオ生成に望まれる長さや構造を設定できます。2 つ目として、動画に求められる会話（場所の説明、スマートフォンがらみのユーモア、なごやかなジョーク、そして少なからぬオヤジギャグ）を出力するための条件付けになります。

プロンプトは、人間のライターとの共同ライターとなるように設計しました。そこで考慮すべき重要なポイントは、Gemini がさまざまな場所の特徴に注目し、Pixel と iPhone の会話にさまざまなアプローチを取り入れて、さまざまなシナリオを生成できるようにすることでした。そうすることで、人間のライターは多様なシナリオをもとに、一番効果的なシナリオを選択したり、編集したり、複数のシナリオを組み合わせたりすることができます。

幅広い回答が出力されるように、Gemini には会話形式でシナリオを書いてもらいました。Gemini があるシナリオを作成した後も、同じコンテキストで別のもの、そしてさらに別のもの、というように作成を依頼しました。以前に生成したシナリオを確認できるようにすることで、確実に別のことを扱う新しいシナリオが生成されるようにし、人間のキュレーターに幅広い選択肢を提供できました。

画像の作成方法

背景画像の生成には、Imagen 2 を使いました。この Google の最新一般公開モデルのおかげで、強力な自然言語制御によって出力を調整し、キャンペーンに必要なさまざまな場所やスタイルを生成できました。

Imagen には、あらゆる種類の場所の背景を作成してもらいたかったのですが、前景は運転する Pixel と iPhone なので、同じような構図を保ちたいとも考えました。

「パリ」や「月の裏側」とい��たプロンプトを使えば、その場所のように見える画像が生成されますが、スタイルも構図も一貫性がないものになりました。ズームアウトしすぎているものもあれば、白黒だったり、Pixel と iPhone が「運転」する場所がなかったりするものもありました。

指示を増やせば画像の質は向上しますが、場所に合わせて言葉を調整するのは時間がかかる手動作業なので、Gemini で画像プロンプトを生成することにしました。人間のライターが場所を入力すると、Gemini は人間が書いた多くのサンプルプロンプトを参考に、その場所のプロンプトを作成します。その後、そのプロンプトが Imagen に送信され、画像が生成されます。

Two images side by side. The image on the left was generated with just the prompt “the dark side of the moon.” It is simple and not very realistic. The image on the right was generated with a long prompt provided by Gemini. It is much more detailed and re

Gemini を使って細かく具体的な背景画像を生成する

AI で生成したプロンプトを使うと、構図の一貫性が保たれた、視覚的にもおもしろい画像が得られることがわかりました。しかし、動画の背景となるのは、静的なアセットだけではありません。Unreal Engine に取り込むアセットは、すべてシーンの重要な要素です。詳しくは、次のセクションで説明します。

サウンドの作成方法

完成したシナリオは、行ごとに Cloud Text-to-Speech に送信してオーディオを生成します。このプロセスは、Best Phones Forever キャンペーンのすべてのキャラクターの声で行ってきたものと同じです。

Cloud TTS を使って忠実で自然な音声を合成していますが、Pixel と iPhone の声には独自の特徴があります。この点に関しては、望むような音質やリズムを実現できる AI モデルは見つかりませんでした。そこで、内部ツールを使って強調や抑揚を加えることで、キャラクターに命を吹き込みます。

Two images side by side. The image on the top represents the sound waves of auto-generated laughter. It is a simple curve. The image on the bottom represents tuned laughter. It is a curve with multiple peaks and valleys.

TTS 音声出力のクリエイティブチューニング

動画の中には、会話のほかに環境音が必要になるものもあります。そこで、サウンドエフェクトの作成、実地での録音、そしてもちろん MusicFX による AI 生成オーディオを組み合わせ、その場所のサウンドス��ープを作成して臨場感を高めます。

すべてをつなげる方法

生成したすべての構成アセットは、自動的にレンダリングキューに入り、Unreal Engine に取り込まれます。そして 3D シーンで iPhone、Pixel、車と合成します。

背景画像は、シーンの背面と側面を包み込むように配置します。これは、正面からスマートフォンと車を映したときの背景になるだけでなく、カメラが動いて話しているキャラクターにズームした場合は、遠近法で角度がついたような背景にもなります。背景の一部は、車のボンネットやスマートフォンのカメラのガラスに反射します。空とシーンの照明もお互いに作用し合い、ディテールと臨場感を向上させる要素になります。

私たちのノンリニアアニメーションエディタを使うと、カメラ位置によらず、スマートフォンにモーションを追加できます。たとえば、スマートフォンが質問する場合は、窓の外やフロントガラスの向こう側を見るのではなく、ためらいがちに体を傾けて、もう 1 台のスマートフォンの方を向くことがあります。発言、ジョーク、うなずき、驚きなどは、すべて独自のアニメーションになっており、すべての状態間でシームレスに補間されます。

ウェブベースの編集ツール

さらに、それぞれの動画の特徴が出るように、ダイナミック要素やテクスチャを有効にすることができます。たとえば、田舎ならボンネットに泥が飛び散り、（ほとんどの）気象条件に合わせてさまざまな帽子をかぶります。惑星探査機、潜水艦、宇宙船などのように、場所によって大幅に車を変更できるとよい場所もあります。

レンダリングを始める前に、動画の VO、カメラカット、主なアニメーションをプレビューすることもできます。準備が整ったら、すべてのレンダリングジョブを Google Cloud Compute の 15 台の仮想マシンで分散処理します。レンダリング時間を含め、最初から最後までわずか 10 分ほどで短い動画を生成できます。

結論と次のステップ

生成 AI を使ってクリエイティブな開発や制作を行うのは、新しい考え方ではありません。しかし、うれしいことに、Google の最新のプロダクション対応モデルを斬新な方法で組み合わせ、アイデアを大規模リアルタイム配信につなげるアプリケーションを構築することができました。

通常、Best Phones Forever の動画は、シナリオ作成、アニメーション作成、レンダリングに数週間かかります。しかし、私たちは、このツールを使って 1 日に数百本のカスタムミニエピソードを生成したいと考えています。そのすべてが、ソーシャルの Pixel コミュニティの皆さんの想像力に触発されたものです。

目指すクリエイティブがどのようなものであっても、Gemini API と Imagen API を使ってできることを、今回の実験を通してわずかでも理解していただければ幸いです。

投稿先: