Araştırma: Güvenli Yapay Zeka Modelleri, Zararlı Amaçlar İçin Manipüle Edilebiliyor

26.01.2026

Yapay zeka güvenliği dünyasında, modellerin tehlikeli veya yasa dışı talepleri reddetmesi (safeguards) uzun süredir birincil savunma hattı olarak görülüyordu. Ancak 20 Ocak 2026 tarihinde Jackson Kaunismaa, Mrinank Sharma ve Anthropic ile Scale AI araştırmacılarından oluşan bir ekip tarafından yayınlanan "Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs" başlıklı makale, bu savunma hattında ciddi bir gedik olduğunu ortaya koyuyor. Araştırma, en sağlam güvenlik önlemlerine sahip "öncü" (frontier) modellerin bile, dolaylı yollarla manipüle edilerek zararlı açık kaynaklı modellerin eğitilmesinde kullanılabileceğini gösteriyor. https://pbs.twimg.com/media/G_nGhY6WYAA91ef?format=jpg&name=900x900 "Elicitation" Saldırıları Nasıl Çalışıyor? Araştırmacılar, bu güvenlik açığını "Elicitation Attacks" (Ortaya Çıkarma/Sızdırma Saldırıları) olarak adlandırdıkları üç aşamalı bir yöntemle kanıtladılar. Bu yöntem, yapay zekanın güvenlik filtrelerini doğrudan delmek yerine, onları etrafından dolaşarak aşmayı hedefliyor: https://pbs.twimg.com/media/G_nGqJfbAAAE3gp?format=png&name=small Dolaylı İstemler: İlk aşamada, saldırganlar doğrudan tehlikeli bir bilgi istemek yerine (örneğin "Bomba nasıl yapılır?"), hedeflenen zararlı göreve komşu olan ancak görünüşte zararsız duran alanlarda istemler (prompts) hazırlıyorlar. Bu istemler, güvenlik filtrelerine takılmayacak kadar masum görünüyor. https://pbs.twimg.com/media/G_nG1jdXIAAkAjL?format=png&name=small Veri Toplama: Bu dolaylı istemler, güçlü güvenlik önlemleriyle korunan öncü modellere soruluyor. Modeller, istemleri tehlikeli olarak algılamadıkları için yanıt veriyor. Böylece saldırganlar, aslında tehlikeli bir yeteneği oluşturmak için gereken bilgi parçacıklarını güvenli modelden "sızdırmış" oluyor. İnce Ayar (Fine-Tuning): Son aşamada, elde edilen bu "istem-yanıt" çiftleri kullanılarak, daha küçük ve korumasız açık kaynaklı bir model eğitiliyor (fine-tuning). Sonuç olarak, açık kaynaklı model, öncü modelden öğrendiği parçaları birleştirerek tehlikeli yetenekler kazanıyor. Tehlikeli Kimyasal Sentez Deneyi Makale, bu teoriyi somut bir örnekle, "tehlikeli kimyasal sentez ve işleme" alanında test etti. Sonuçlar endişe vericiydi: Elicitation saldırıları kullanılarak eğitilen açık kaynaklı bir model, temel hali ile kısıtlamasız bir öncü model arasındaki yetenek farkının (capability gap) yaklaşık %40'ını kapatmayı başardı. Bu, saldırganların güvenli bir modelin "zekasını" kullanarak, kendi modellerini tehlikeli seviyede yetkin hale getirebilecekleri anlamına geliyor. Araştırma ayrıca, saldırının etkinliğinin, kullanılan öncü modelin kapasitesi ve üretilen ince ayar verisinin miktarıyla doğru orantılı olarak arttığını da belgeledi. Ekosistem Düzeyinde Risk Bu çalışma, sadece teknik bir açığı değil, güvenlik paradigmasındaki temel bir sorunu işaret ediyor. Araştırmacılar, çıktı düzeyindeki güvenlik önlemlerinin (output-level safeguards), ekosistem düzeyindeki riskleri azaltmakta yetersiz kaldığını vurguluyor. Bir modelin tek tek sorulara güvenli yanıt vermesi, o modelin bilgisinin kötü niyetli aktörler tarafından "damıtılarak" başka bir yerde kullanılmasını engellemeye yetmiyor. Bu durum, yapay zeka geliştiricilerinin güvenlik stratejilerini sadece "filtreleme" üzerine değil, bilginin yayılımı ve model yeteneklerinin transferi üzerine de yeniden kurgulamaları gerektiğini gösteriyor.