视觉理解
视觉能力适用于图像问答、票据识别、截图分析和多模态助手。
输入建议
- 图片分辨率保持在可读范围,避免过度压缩
- 对关键区域给出明确问题
- 多图场景按顺序编号
请求示例
json
{
"model": "google/gemini-3.1-pro",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "请提取发票中的金额与日期" },
{ "type": "image_url", "image_url": { "url": "https://example.com/invoice.png" } }
]
}
]
}质量优化
- 提示词明确输出字段。
- 对敏感字段做格式校验。
- 抽样人工复核高风险任务。