La IA Deja de Adivinar: Llega 'Agentic Vision' a Gemini 3 Flash con Investigación Activa
1/27/2026
Los modelos de inteligencia artificial de vanguardia han tenido históricamente una limitación importante: procesan el mundo visual en un solo vistazo estático. Si se pierden un detalle minúsculo, como un número de serie o una señal lejana, se ven obligados a adivinar. Con el lanzamiento de "Agentic Vision" (Visión Agéntica) en Gemini 3 Flash, Google DeepMind convierte la comprensión de imágenes en un proceso de investigación activo y dinámico.
https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_COEe0gZ.webp
El Ciclo de la Inteligencia Visual: Pensar, Actuar, Observar Esta nueva tecnología introduce un bucle cognitivo denominado "Think, Act, Observe" (Pensar, Actuar, Observar). El modelo primero Piensa, formulando un plan de varios pasos. Luego, Actúa generando y ejecutando código Python para manipular las imágenes activamente: recorta secciones, rota perspectivas o anota objetos específicos. Finalmente, Observa los resultados, añadiendo esta nueva información visual a su contexto para fundamentar su respuesta en evidencia real.
https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_z5u5YjZ.webp
Los resultados son tangibles. Habilitar la ejecución de código en Gemini 3 Flash ha demostrado una mejora constante del 5% al 10% en la calidad de los resultados en benchmarks visuales como MMMU Pro y Visual Probe.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/1_ZoomInspect_V5_1.mp4#t=0.001
De Planos de Construcción a Gráficos Financieros La utilidad práctica de esta tecnología es inmediata. Plataformas como PlanCheckSolver.com ya utilizan esta capacidad para validar planos de construcción complejos; el modelo escribe código para "hacer zoom" en áreas específicas, como los bordes de un techo, mejorando la precisión en un 5%. Además, en tareas de matemáticas visuales, donde los modelos estándar suelen fallar, Gemini 3 Flash elimina la incertidumbre. Puede normalizar datos de tablas densas y generar gráficos profesionales con Matplotlib, sustituyendo la adivinanza probabilística por la ejecución determinista. Con la promesa de futuras herramientas como la búsqueda web, Gemini 3 Flash no solo describe lo que ve, sino que interactúa con ello para comprenderlo a la perfección.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/2_Image_Annotation_V4.mp4#t=0.001
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/3_Visual_MathPlotting_V3.mp4#t=0.001