此页面由 Cloud Translation API 翻译。

2024 年 I/O 大会 Web AI 总结：为您的下一个 Web 应用打造的新模型、工具和 API

Jason Mayes

Alexandra Klepper

过去一年，Web AI 发生了很多变化。您可能错过了，我们在 2024 年 I/O 大会上发表了一场演讲，讨论您的下一个 Web 应用要采用的新模型、工具和 API。

Web AI 是一组技术和技术，旨在通过设备 CPU 或 GPU 上运行的网络浏览器在客户端使用机器学习模型 (ML) 模型。这可以使用 JavaScript 和其他 Web 技术（如 WebAssembly 和 WebGPU）进行构建。这与服务器端 AI 或“Cloud AI”不同，在服务器端 AI 中，模型在服务器上执行并通过 API 访问。

在本次讲座中，我们分享了以下内容：

如何在浏览器中运行新的大语言模型 (LLM)，以及在客户端运行模型的影响；
展望 Visual Blocks 的未来，以便更快地进行原型设计；
以及 Web 开发者如何在 Chrome 中使用 JavaScript 大规模运用 Web AI。

浏览器中的 LLM

Gemma Web 是 Google 推出的一款新型开放模型，可在用户设备上的浏览器中运行，其构建基础与我们在开发 Gemini 时使用的研究和技术相同。

与在云服务器上运行推断来相比，在设备端部署 LLM 可以显著节省成本，还能增强用户隐私保护并缩短延迟时间。浏览器中的生成式 AI 仍处于早期阶段，但随着硬件的不断改进（CPU 和 GPU RAM 越来越高），我们预计会有更多模型推出。

企业可以重新构想在网页上可以执行的操作，尤其是针对特定任务的用例。在消费类硬件上，小型 LLM（20 到 80 亿个参数）的权重可以微调。

Gemma 2B 支持通过 Kaggle Models 下载，其格式与我们的 Web LLM 推理 API 兼容。其他受支持的架构包括 Microsoft Phi-2、Falcon RW 1B 和 Stable LM 3B，您可以使用我们的转换器库将其转换为运行时可以使用的格式。

使用 Visual Blocks 构建更快的原型

借助 Visual Blocks，您无需编写代码即可在客户端中运行深度估算。

我们的正与 Hugging Face 合作，为 Visual Blocks 创建了 16 个全新的自定义节点。这使得 Transformers.js 和更广泛的 Hugging Face 生态系统进入了 Visual Blocks。

在这些新节点中，有 8 个完全在客户端运行，使用 Web AI，包括：

此外，Hugging Face 还提供七项服务器端机器学习任务，允许您使用 Visual Blocks 中的 API 运行数千个模型。请查看 Hugging Face Visual Blocks 集合。

在 Chrome 中大规模使用用于 Web AI 的 JavaScript

在之前的实例中（例如使用 Gemma 时），模型在网页内加载并运行。Chrome 正致��于内置设备端 AI，让你可以使用针对特定任务的标准化 JavaScript API 访问模型。

不止如此。Chrome 还更新了 WebGPU，以支持 16 位浮点值。

WebAssembly 新增了支持 64 位内存索引的 Memory64 方案，可让您加载比以前更大的 AI 模型。

开始使用无头 Chrome 测试 Web AI 模型

您现在可以使用 Headless Chrome 来测试客户端 AI（或者任何需要 WebGL 或 WebGPU 支持的应用），同时利用服务器端 GPU 进行加速（例如 NVIDIA T4 或 P100）。了解详情：

请记住，在分享您创作的内容时，请添加 #WebAI，以便更广泛的社区可以看到您的作品。在 X、LinkedIn 或您喜欢的社交平台上分享您的发现和建议。