Skip to content

视觉理解

视觉能力适用于图像问答、票据识别、截图分析和多模态助手。

输入建议

  • 图片分辨率保持在可读范围,避免过度压缩
  • 对关键区域给出明确问题
  • 多图场景按顺序编号

请求示例

json
{
  "model": "google/gemini-3.1-pro",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "请提取发票中的金额与日期" },
        { "type": "image_url", "image_url": { "url": "https://example.com/invoice.png" } }
      ]
    }
  ]
}

质量优化

  1. 提示词明确输出字段。
  2. 对敏感字段做格式校验。
  3. 抽样人工复核高风险任务。