Yapay Zeka Artık Sadece Bakmıyor, "Araştırıyor": Gemini 3 Flash ve Agentic Vision Devrimi
27.01.2026
Yapay zeka dünyasında görme yetisi bugüne kadar pasif bir eylemdi. Geleneksel modeller, bir görsele tek bir kez bakar, eğer ince bir detayı (örneğin bir mikroçip üzerindeki seri numarasını veya uzaktaki bir tabelayı) kaçırırsa, geri kalanı için tahminde bulunmak zorunda kalırdı. Ancak Google DeepMind’ın bugün tanıttığı "Agentic Vision" teknolojisi ile Gemini 3 Flash, bu pasif bakışı aktif bir "araştırma" sürecine dönüştürüyor.
https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_COEe0gZ.webp
Tahmin Etme, Araştır: Düşün, Hareket Et, Gözlemle Yeni sistemin kalbinde, insan algısını taklit eden bir döngü yatıyor: "Düşün, Hareket Et ve Gözlemle". Model bir görselle karşılaştığında önce Düşünür ve çok adımlı bir plan yapar. Ardından Hareket Eder; yani görüntüyü kırpmak, döndürmek veya analiz etmek (örneğin nesneleri saymak) için Python kodları yazar ve çalıştırır. Son olarak Gözlemler; kodun çıktısı olan yeni görseli bağlama ekler ve nihai yanıtı vermeden önce elindeki kanıtları doğrular.
https://storage.googleapis.com/gweb-uniblog-publish-prod/images/agentic-vision-gemini-3_flash_bl.width-1000.format-webp_z5u5YjZ.webp
Bu yetenek, sadece teorik bir iyileştirme değil. Yayınlanan benchmark sonuçlarına göre, kod yürütme yeteneğinin görsel analizle birleşmesi, MMMU Pro ve V* gibi zorlu testlerde %5 ila %10 arasında tutarlı bir kalite artışı sağlıyor.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/1_ZoomInspect_V5_1.mp4#t=0.001
Piksel Piksel Doğrulama: Gerçek Dünya Senaryoları Bu teknolojinin sahada nasıl çalıştığına dair en çarpıcı örneklerden biri inşaat sektöründen geliyor. Yapı planlarını doğrulayan PlanCheckSolver.com, Gemini 3 Flash’ın yüksek çözünürlüklü planlarda belirli bölgelere (örneğin çatı kenarlarına) odaklanmak için kod yazıp o bölgeyi "kırparak" yeniden incelediğini ve bu sayede doğruluğu %5 artırdığını raporluyor.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/2_Image_Annotation_V4.mp4#t=0.001
Daha basit ama etkileyici bir diğer örnek ise görsel matematik. Standart modellerin sıklıkla halüsinasyon gördüğü (uydurduğu) karmaşık tablolarda, Gemini 3 Flash artık verileri okuyup Python ortamında işliyor ve Matplotlib kütüphanesini kullanarak profesyonel grafikler çiziyor. Hatta parmak sayma gibi basit görünen ama yapay zekayı zorlayan görevlerde, her bir parmağın üzerine sayısal etiketler çizerek "görsel bir karalama defteri" oluşturuyor ve hatasız sayım yapıyor. Google, bu yeteneğin henüz başlangıç olduğunu ve yakında web araması gibi daha fazla aracın sisteme entegre edileceğini belirtiyor.
https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/3_Visual_MathPlotting_V3.mp4#t=0.001