Skip to content

思维过程

Gemini 3 Pro Image 预览版模型是一种思考模型,会针对复杂的提示使用推理流程("思考")。此功能默认处于启用状态,并且无法在 API 中停用。

工作原理

模型最多会生成两张临时图片,以测试构图和逻辑。"思考"中的最后一张图片也是最终渲染的图片。

思考图片的作用

  1. 构图测试:尝试不同的构图方式
  2. 元素验证:检查提示中的所有元素是否已包含
  3. 逻辑检查:确保场景在逻辑上合理

查看思考过程

您可以查看促成最终图片生成的想法。

思考签名

思考签名是模型内部思考过程的加密表示形式,用于在多轮互动中保留推理上下文。

签名规则

所有响应都包含 thought_signature 字段。一般来说,如果您在模型响应中收到思考签名,则应在下一轮对话中发送对话历史记录时,完全按收到的原样将其传递回去。

WARNING

未能循环使用想法签名可能会导致回答失败。

签名位置

  • 思想部分没有签名
  • 图片部分都有签名
  • 如果思考之后紧跟着文字,第一个文字部分也有签名

示例响应结构

json
[
  {
    "inline_data": {
      "data": "<base64_image_data_0>",
      "mime_type": "image/png"
    },
    "thought": true  // Thoughts don't have signatures
  },
  {
    "inline_data": {
      "data": "<base64_image_data_1>",
      "mime_type": "image/png"
    },
    "thought": true  // Thoughts don't have signatures
  },
  {
    "inline_data": {
      "data": "<base64_image_data_2>",
      "mime_type": "image/png"
    },
    "thought": true  // Thoughts don't have signatures
  },
  {
    "text": "Here is the step-by-step guide...",
    "thought_signature": "<Signature_A>"  // The first non-thought part always has a signature
  },
  {
    "inline_data": {
      "data": "<base64_image_data_3>",
      "mime_type": "image/png"
    },
    "thought_signature": "<Signature_B>"  // All image parts have signatures
  }
]

自动处理签名

INFO

如果您使用官方 Google Gen AI SDK 并使用聊天功能(或将完整的模型回答对象直接附加到历史记录中),思考签名会被自动处理。您无需手动提取或管理它们,也无需更改代码。

适用场景

思考模式对以下类型的提示特别有用:

复杂构图

需要平衡多个元素的复杂场景。

逻辑推理

需要确保场景在物理或逻辑上合理。

多步骤任务

需要分步完成的多部分任务。

风格转换

需要在转换过程中保留原始构图。


返回高级功能 | 参考图片 | Google 搜索

Released under the Academic Free License v3.0.