Gemini API 支持 PDF 输入,包括长文档(最多 1, 000 页)。 Gemini 模型通过原生视觉功能处理 PDF,因此能够理解文档中的文本和图片内容。借助原生 PDF 视觉支持,Gemini 模型能够:
- 分析文档中的图表和表格
- 以结构化输出格式提取信息
- 回答有关文档中视觉和文本内容的问题
- 总结文档
- 转写文档内容(例如转写为 HTML),同时保留布局和格式,以便在下游应用中使用
本教程演示了使用 Gemini API 处理 PDF 文档的一些可能方式。
技术详情
Gemini 最多支持 1,000 个文档页面。文档页面必须采用以下文本数据 MIME 类型之一:
- PDF -
application/pdf
- JavaScript -
application/x-javascript
、text/javascript
- Python -
application/x-python
、text/x-python
- TXT -
text/plain
- HTML -
text/html
- CSS -
text/css
- 下调 -
text/md
- CSV -
text/csv
- XML -
text/xml
- RTF -
text/rtf
每个文档页面相当于 258 个词元。
虽然除了模型的情境窗口之外,对文档中的像素数量没有具体限制,但较大的页面会被缩小到最大分辨率 3072x3072,同时保留其原始宽高比,而较小的页面会被放大到 768x768 像素。除了带宽之外,较小尺寸的网页不会降低费用,而较高分辨率的网页也不会提高性能。
为了达到最佳效果,请注意以下事项:
- 请先将页面旋转到正确方向,然后再上传。
- 避免页面模糊不清。
- 如果使用单页,请将文本提示放在该页之后。
后续步骤
如需了解详情,请参阅以下资源: