使用媒体文件进行提示

Gemini API 支持使用文本、图片、音频和视频数据进行提示（也称为多模态提示），这意味着您可以在提示中包含这些类型的媒体文件。对于小型文件，您可以在提供提示时将 Gemini 模型直接指向本地文件先使用 File API 上传较大的文件��然后再将这些文件添加到提示中。

使用 File API，每个项目最多可以存储 20GB 的文件，每个文件的大小不超过 2GB。文件会存储 48 小时。在此期间，您可以使用 API 密钥访问以生成文件，但无法通过 API 下载文件。凡是已推出 Gemini API 的地区，您都可以免费使用 Files API。

File API 会处理可用于通过 model.generateContent 或 model.streamGenerateContent 生成内容的输入。如需了解有效文件格式（MIME 类型）和支持的模型，请参阅支持的文件格式。

本指南介绍了如何使用 File API 上传媒体文件，并将其添加到对 Gemini API 的 GenerateContent 调用中。如需了解详情，请参阅代码示例。

支持的文件格式

Gemini 模型支持以多种文件格式输入提示。本部分介绍了使用常规媒体格式进行提示的注意事项，特别是图片、音频、视频和纯文本文件。您只能将媒体文件用于提示特定模型版本，如下表所示。

模型	Images	音频	视频	纯文本
Gemini 1.5 Pro（版本 008 及更高版本）	✔（最多 3600 个图片文件）	✔	✔	✔

您可以使用图片数据在 Gemini 1.5 模型中给出提示。使用图片进行提示时，它们遵循以下限制和要求：

在 Gemini 1.5 模型中，你可以使用音频数据来给出提示。使用音频进行提示时，需要遵循以下限制和要求：

你可以使用视频数据在 Gemini 1.5 模型中给出提示。

以下常见的视频格式 MIME 类型支持视频数据：
- video/mp4
- video/mpeg
- 视频/移动
- 视频/avi
- video/x-flv
- 视频/mpg
- 视频/webm
- 视频/wmv
- 视频/3gpp
File API 服务会以每秒 1 �� (FPS) 的��度对��片进行视频采样，并且可能会发生变化，以提供最佳的推理质量。无论分辨率和质量如何，单个图片都会占用 258 个词元。

File API 支持上传具有以下 MIME 类型的纯文本文件：

对于 MIME 类型不在列表中的纯文本文件，您可以尝试手动指定上述 MIME 类型之一。