从“静观”到“主动探究”：Gemini 3 Flash 推出 Agentic Vision（代理视觉）功能

Name: 从“静观”到“主动探究”：Gemini 3 Flash 推出 Agentic Vision（代理视觉）功能 - Video
Uploaded: 2026-01-27T21:36:43.628Z
Description: 从“静观”到“主动探究”：Gemini 3 Flash 推出 Agentic Vision（代理视觉）功能

1/27/2026

Google DeepMind 为 Gemini 3 Flash 引入了全新的“代理视觉”（Agentic Vision）能力。通过结合视觉推理与 Python 代码执行，模型能够执行“思考-行动-观察”的循环，主动缩放、标记和分析图像，从而在多项视觉基准测试中实现了 5-10% 的质量提升。 https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_COEe0gZ.webp İçerik 长期以来，前沿的人工智能模型通常以单一、静态的视角来处理视觉世界。如果它们错过了一个细微的细节——比如微芯片上的序列号或远处的路标——它们就只能被迫进行猜测。随着 Google DeepMind 在 Gemini 3 Flash 中推出“代理视觉”（Agentic Vision），这一局限被彻底打破，图像理解从被动的观看转变为了一种基于代码的主动探究过程。 https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_z5u5YjZ.webp 核心机制：思考 (Think)、行动 (Act)、观察 (Observe) Agentic Vision 引入了一个类似于人类认知的循环系统：首先是思考：模型分析用户查询并制定多步骤计划。其次是行动：模型生成并执行 Python 代码来主动操作图像（例如裁剪、旋转、注释）或进行分析（如计算边界框）。最后是观察：转换后的图像被附加到模型的上下文中，使其在生成最终答案之前能够基于更清晰的视觉证据进行推理。 https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/1_ZoomInspect_V5_1.mp4#t=0.001 基准测试数据证实了这一方法的有效性。在 MMMU Pro、V* 和 HRBench 等主要视觉测试中，启用代码执行功能的 Gemini 3 Flash 展现出了 5-10% 的稳定质量提升。 https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/2_Image_Annotation_V4.mp4#t=0.001 实际应用：从建筑图纸到可视化数学这一功能的实际应用场景非常广泛。例如，建筑图纸验证平台 PlanCheckSolver.com 通过启用该功能，让 Gemini 3 Flash 编写代码以迭代检查高分辨率图纸的特定区域（如屋顶边缘），从而将准确率提高了 5%。此外，在处理高密度表格时，Gemini 3 Flash 能够通过执行确定性的 Python 环境来避免“幻觉”。它可以读取原始数据并绘制专业的 Matplotlib 条形图，或者在计算手指数量时，直接在图像上绘制边界框和数字标签，以确保“所见即所得”的精准度。Google 表示，未来还将集成网络搜索等更多工具，进一步增强模型对物理世界的理解能力。 https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/3_Visual_MathPlotting_V3.mp4#t=0.001