从“静观”到“主动探究”:Gemini 3 Flash 推出 Agentic Vision(代理视觉)功能
1/27/2026
Google DeepMind 为 Gemini 3 Flash 引入了全新的“代理视觉”(Agentic Vision)能力。通过结合视觉推理与 Python 代码执行,模型能够执行“思考-行动-观察”的循环,主动缩放、标记和分析图像,从而在多项视觉基准测试中实现了 5-10% 的质量提升。
https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_COEe0gZ.webp
İçerik 长期以来,前沿的人工智能模型通常以单一、静态的视角来处理视觉世界。如果它们错过了一个细微的细节——比如微芯片上的序列号或远处的路标——它们就只能被迫进行猜测。随着 Google DeepMind 在 Gemini 3 Flash 中推出“代理视觉”(Agentic Vision),这一局限被彻底打破,图像理解从被动的观看转变为了一种基于代码的主动探究过程。
https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_z5u5YjZ.webp
核心机制:思考 (Think)、行动 (Act)、观察 (Observe) Agentic Vision 引入了一个类似于人类认知的循环系统: 首先是思考:模型分析用户查询并制定多步骤计划。 其次是行动:模型生成并执行 Python 代码来主动操作图像(例如裁剪、旋转、注释)或进行分析(如计算边界框)。 最后是观察:转换后的图像被附加到模型的上下文中,使其在生成最终答案之前能够基于更清晰的视觉证据进行推理。
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/1_ZoomInspect_V5_1.mp4#t=0.001
基准测试数据证实了这一方法的有效性。在 MMMU Pro、V* 和 HRBench 等主要视觉测试中,启用代码执行功能的 Gemini 3 Flash 展现出了 5-10% 的稳定质量提升。
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/2_Image_Annotation_V4.mp4#t=0.001
实际应用:从建筑图纸到可视化数学 这一功能的实际应用场景非常广泛。例如,建筑图纸验证平台 PlanCheckSolver.com 通过启用该功能,让 Gemini 3 Flash 编写代码以迭代检查高分辨率图纸的特定区域(如屋顶边缘),从而将准确率提高了 5%。 此外,在处理高密度表格时,Gemini 3 Flash 能够通过执行确定性的 Python 环境来避免“幻觉”。它可以读取原始数据并绘制专业的 Matplotlib 条形图,或者在计算手指数量时,直接在图像上绘制边界框和数字标签,以确保“所见即所得”的精准度。Google 表示,未来还将集成网络搜索等更多工具,进一步增强模型对物理世界的理解能力。
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/3_Visual_MathPlotting_V3.mp4#t=0.001