2024 年 I/O 大会 Web AI 总结:为您的下一个 Web 应用打造的新模型、工具和 API

Jason Mayes
Jason Mayes
Alexandra Klepper
Alexandra Klepper

过去一年,Web AI 发生了很多变化。您可能错过了,我们在 2024 年 I/O 大会上发表了一场演讲,讨论您的下一个 Web 应用要采用的新模型、工具和 API。

Web AI 是一组技术和技术,旨在通过设备 CPU 或 GPU 上运行的网络浏览器在客户端使用机器学习模型 (ML) 模型。这可以使用 JavaScript 和其他 Web 技术(如 WebAssembly 和 WebGPU)进行构建。这与服务器端 AI 或“Cloud AI”不同,在服务器端 AI 中,模型在服务器上执行并通过 API 访问。

在本次讲座中,我们分享了以下内容:

  • 如何在浏览器中运行新的大语言模型 (LLM),以及在客户端运行模型的影响;
  • 展望 Visual Blocks 的未来,以便更快地进行原型设计;
  • 以及 Web 开发者如何在 Chrome 中使用 JavaScript 大规模运用 Web AI。

浏览器中的 LLM

Gemma Web 是 Google 推出的一款新型开放模型,可在用户设备上的浏览器中运行,其构建基础与我们在开发 Gemini 时使用的研究和技术相同。

与在云服务器上运行推断来相比,在设备端部署 LLM 可以显著节省成本,还能增强用户隐私保护并缩短延迟时间。浏览器中的生成式 AI 仍处于早期阶段,但随着硬件的不断改进(CPU 和 GPU RAM 越来越高),我们预计会有更多模型推出。

企业可以重新构想在网页上可以执行的操作,尤其是针对特定任务的用例。在消费类硬件上,小型 LLM(20 到 80 亿个参数)的权重可以微调。

Gemma 2B 支持通过 Kaggle Models 下载,其格式与我们的 Web LLM 推理 API 兼容。其他受支持的架构包括 Microsoft Phi-2Falcon RW 1BStable LM 3B,您可以使用我们的转换器库将其转换为运行时可以使用的格式。

使用 Visual Blocks 构建更快的原型

借助 Visual Blocks,您无需编写代码即可在客户端中运行深度估算。

我们的正与 Hugging Face 合作,为 Visual Blocks 创建了 16 个全新的自定义节点。这使得 Transformers.js 和更广泛的 Hugging Face 生态系统进入了 Visual Blocks。

在这些新节点中,有 8 个完全在客户端运行,使用 Web AI,包括:

此外,Hugging Face 还提供七项服务器端机器学习任务,允许您使用 Visual Blocks 中的 API 运行数千个模型。请查看 Hugging Face Visual Blocks 集合

在 Chrome 中大规模使用用于 Web AI 的 JavaScript

在之前的实例中(例如使用 Gemma 时),模型在网页内加载并运行。Chrome 正致���于内置设备端 AI,让你可以使用针对特定任务的标准化 JavaScript API 访问模型。

不止如此。Chrome 还更新了 WebGPU,以支持 16 位浮点值。

WebAssembly 新增了支持 64 位内存索引的 Memory64 方案,可让您加载比以前更大的 AI 模型。

开始使用无头 Chrome 测试 Web AI 模型

您现在可以使用 Headless Chrome 来测试客户端 AI(或者任何需要 WebGL 或 WebGPU 支持的应用),同时利用服务器端 GPU 进行加速(例如 NVIDIA T4 或 P100)。了解详情:

请记住,在分享您创作的内容时,请添加 #WebAI,以便更广泛的社区可以看到您的作品。在 X、LinkedIn 或您喜欢的社交平台上分享您的发现和建议。