思维过程
Gemini 3 Pro Image 预览版模型是一种思考模型,会针对复杂的提示使用推理流程("思考")。此功能默认处于启用状态,并且无法在 API 中停用。
工作原理
模型最多会生成两张临时图片,以测试构图和逻辑。"思考"中的最后一张图片也是最终渲染的图片。
思考图片的作用
- 构图测试:尝试不同的构图方式
- 元素验证:检查提示中的所有元素是否已包含
- 逻辑检查:确保场景在逻辑上合理
查看思考过程
您可以查看促成最终图片生成的想法。
思考签名
思考签名是模型内部思考过程的加密表示形式,用于在多轮互动中保留推理上下文。
签名规则
所有响应都包含 thought_signature 字段。一般来说,如果您在模型响应中收到思考签名,则应在下一轮对话中发送对话历史记录时,完全按收到的原样将其传递回去。
WARNING
未能循环使用想法签名可能会导致回答失败。
签名位置
- 思想部分没有签名
- 图片部分都有签名
- 如果思考之后紧跟着文字,第一个文字部分也有签名
示例响应结构
json
[
{
"inline_data": {
"data": "<base64_image_data_0>",
"mime_type": "image/png"
},
"thought": true // Thoughts don't have signatures
},
{
"inline_data": {
"data": "<base64_image_data_1>",
"mime_type": "image/png"
},
"thought": true // Thoughts don't have signatures
},
{
"inline_data": {
"data": "<base64_image_data_2>",
"mime_type": "image/png"
},
"thought": true // Thoughts don't have signatures
},
{
"text": "Here is the step-by-step guide...",
"thought_signature": "<Signature_A>" // The first non-thought part always has a signature
},
{
"inline_data": {
"data": "<base64_image_data_3>",
"mime_type": "image/png"
},
"thought_signature": "<Signature_B>" // All image parts have signatures
}
]自动处理签名
INFO
如果您使用官方 Google Gen AI SDK 并使用聊天功能(或将完整的模型回答对象直接附加到历史记录中),思考签名会被自动处理。您无需手动提取或管理它们,也无需更改代码。
适用场景
思考模式对以下类型的提示特别有用:
复杂构图
需要平衡多个元素的复杂场景。
逻辑推理
需要确保场景在物理或逻辑上合理。
多步骤任务
需要分步完成的多部分任务。
风格转换
需要在转换过程中保留原始构图。