Gemini 3代理化视觉

"那个盒子里有多少六角螺栓?"

传统上,多模态LLM会根据图像进行单次通过做出最佳猜测 —— 有时正确,有时自信地错误。

但是如果AI可以暂停、思考任务,编写一个Python脚本来放大到盒子中,应用计数算法,在每个螺栓周围绘制边界框 —— 然后验证其自己的工作呢?

那不再是科学幻想。

有了Gemini 3 Flash中的Agent视觉,图像理解从被动观察转变为主动调查,将答案基于视觉证据而非可能性。

1、Agent视觉:从看到到调查

Agent视觉代表了多模态模型关于图像推理方式的根本变化。模型现在可以与图像作为环境交互,而不仅仅是描述它们看到的内容。

其核心是一个严谨的思考 → 行动 → 观察循环:

  • 思考: 模型分析用户的请求和初始图像,然后制定多步计划。 例如: "物品很小。我需要放大,隔离区域,并计算它们。"
  • 行动: 模型生成并执行Python代码来处理或分析图像 —— 裁剪感兴趣区域,运行计算,计数物品,或绘制注释。
  • 观察: 转换后的图像(例如,高分辨率裁剪或注释输出)被追加回模型的上下文窗口,允许在产生最终答案前检查结果。这个循环使Gemini 3 Flash能够图像推理,而不仅仅是关于它们。

有了Agent视觉,Gemini 3 Flash可以:

  • 放大到感兴趣的区域
  • 执行视觉数学和测量
  • 生成并执行图像分析的代码
  • 检查中间视觉输出
  • 在可观察证据中基于答案

2、解决视觉AI中的"黑盒"问题

视觉AI最大的挑战之一一直是信任。当模型说 "有10个物品"时,你经常被迫照单其价值。

Agent视觉改变了这一点。

因为Gemini 3 Flash可以直接标注图像 —— 绘制边界框、箭头和标签 —— 开发者可以精确地看到模型如何得出结论。不再相信数字,你可以检查实际的Matplotlib或OpenCV输出,显示每个物品的检测位置。

图像不再是透明输入。它们成为推理过程中的可编辑工件

Agent视觉启用的关键能力

  • 放大和检查自动裁剪并以更高保真度重新分析小或远处细节。
  • 视觉数学使用像素到比率的计算来计数物品,汇总收据上的值,或测量距离。
  • 注释和基础直接在图像上绘制框、箭头和标签来解释和证明结论。

3、让我们试试看!

你可以在https://github.com/laxmi-genai/gemini3-samples找到完整代码

以下是用于演示Agent视觉作用的真实提示。

提示

Count the items in this image and classify them and label it by its
specific color and object type.
Point to all the items in the image in the format of {"point": [y,x], label=""}.
Identify any objects that should not belong to a work desk and annotate them on
the image with boxes, arrows and make sure you label them.
Also provide a reasoning on why they do not belong in a work desk

代码片段

此示例使用Gemini 3 Flash,启用代码执行,并请求高推理模式,以便模型可以规划和验证其行动。

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[image, prompt],
    config=types.GenerateContentConfig(
        tools=[types.Tool(code_execution=types.ToolCodeExecution)],
        thinking_config=types.ThinkingConfig(
            thinking_level="HIGH",
        ),
    ),
)

这里的关键部分是:

  • 启用代码执行工具
  • 允许模型在行动前深度推理
  • 让视觉输出流回模型的上下文

模型识别为"不属于工作台"的内容

以下物品被检测、注释并由模型证明:

行动玩具(人形):

  • 这是一个玩具/可收藏品,用于娱乐或展示,而非用于专业或教育任务。

怪兽玩具:

  • 类似于行动玩具,它是一个娱乐物品,而非标准办公用品。

唇彩管:

  • 这是一个个人护理/化妆品物品,而非功能性办公工具。

织物带:

  • 这似乎是个人配件(可能是手表带)而非办公用品或办公相关工具。

输入和输出图像

Gemini 3 Agent视觉

Agent视觉解锁了一类新的应用程序:

  • 可以验证自身结果的视觉检查系统
  • 具有可检查输出的可调试视觉管道
  • 可以推理、行动和验证的多模态代理
  • 可以解释如何知道的AI系统 —— 不仅仅知道什么

图像不再是静态提示。它们是模型可以探索、处理和推理的交互环境

4、结束语

Agent视觉代表从推理式看到的转变。

通过将多模态推理与可执行代码结合,Gemini 3 Flash将图像转变为决策循环中的积极参与者 —— 启用更准确、更可信、更透明的AI系统。

而且是的……也许是时候整理和清理我的桌子了。

感谢你,Gemini 3 !


原文链接: Beyond Just Looking: Gemini 3 Now Has Agentic Vision

汇智网翻译整理,转载请标明出处