我们推出了 2.5 系列 Thinking 模型的更新。了解详情

此页面由 Cloud Translation API 翻译。

文档理解

Gemini API 支持 PDF 输入，包括长文档（最多 1, 000 页）。 Gemini 模型通过原生视觉功能处理 PDF，因此能够理解文档中的文本和图片内容。借助原生 PDF 视觉支持，Gemini 模型能够：

分析文档中的图表和表格
以结构化输出格式提取信息
回答有关文档中视觉和文本内容的问题
总结文档
转写文档内容（例如转写为 HTML），同时保留布局和格式，以便在下游应用中使用

本教程演示了使用 Gemini API 处理 PDF 文档的一些可能方式。

技术详情

Gemini 最多支持 1,000 个文档页面。文档页面必须采用以下文本数据 MIME 类型之一：

PDF - application/pdf
JavaScript - application/x-javascript、text/javascript
Python - application/x-python、text/x-python
TXT - text/plain
HTML - text/html
CSS - text/css
下调 - text/md
CSV - text/csv
XML - text/xml
RTF - text/rtf

每个文档页面相当于 258 个词元。

虽然除了模型的情境窗口之外，对文档中的像素数量没有具体限制，但较大的页面会被缩小到最大分辨率 3072x3072，同时保留其原始宽高比，而较小的页面会被放大到 768x768 像素。除了带宽之外，较小尺寸的网页不会降低费用，而较高分辨率的网页也不会提高性能。

为了达到最佳效果，请注意以下事项：

请先将页面旋转到正确方向，然后再上传。
避免页面模糊不清。
如果使用单页，请将文本提示放在该页之后。

后续步骤

如需了解详情，请参阅以下资源：

文件提示策略：Gemini API 支持使用文本、图片、音频和视频数据进行提示，也称为多模态提示。
系统指令：系统指令可让您根据自己的特定需求和使用情形来控制模型的行为。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-07-09。

	
		OSZAR »