Anasayfa / Teknoloji / Yapay Zekâ Güvenliğinde Yeni Tehlike: Veriye Gizlice Zararlı Eklemeler ve Saldırı Yöntemleri

MuhtarAbi
Teknoloji
Yapay Zekâ Güvenliğinde Yeni Tehlike: Veriye Gizlice Zararlı Eklemeler ve Saldırı Yöntemleri

14 kez okunmuştur Yayınlanma Tarihi: 22 Ekim 2025 12:25 - Güncelleme Tarihi: 22 Ekim 2025 12:25 14

Güncellenme - 22 Ekim 2025 12:25

Yayınlanma - 22 Ekim 2025 12:25

Yapay Zekâ Güvenliğinde Yeni Tehlike: Veriye Gizlice Zararlı Eklemeler ve Saldırı Yöntemleri

Zehirlenme kavramı genellikle insan bedeniyle veya doğayla ilişkilendirilir. Ancak artık aynı tehlike, yapay zekâ dünyasında da hızla büyüyor. Özellikle ChatGPT ve Claude gibi büyük dil modelleri için.

BEĞENDİM

ABONE OL

News

İngiltere Yapay Zekâ Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic ortaklığında yapılan yeni bir araştırma, milyonlarca dosyadan oluşan eğitim verilerine sadece birkaç kayıplı kötü niyetli dosya eklenmesiyle bir yapay zekanın gizlice “zehirlenebileceğini” ortaya koyuyor. Bu durum, yapay zekanın eğitim sürecine bilinçli olarak girilen sahte veya manipüle edilmiş bilgiler sayesinde modeli istenmeyen şekilde yönlendirmek anlamına geliyor.

“AI poisoning” veya yapay zekâ zehirlenmesi terimi, bir modeli yanlış bilgiyle weakşekilde etkileme veya bozma amacı taşıyan saldırı türlerini ifade eder. Bu saldırıların temel amacı, modelin doğru çalışmasını engellemek veya istenilen yönde davranmasını sağlamaktır. Uzmanlar bunu şöyle açıklıyor: “Bir öğrencinin sınav notlarına gizlice hatalı kartlar yerleştirmek gibi.” Öğrenci konu hakkında soru sorulduğunda fark etmeden yanlış cevaplar üretebilir.

Bu saldırılar temel olarak iki kategoriye ayrılır: veri zehirleme ve model zehirleme. Veri zehirleme, eğitim sırasında zararlı veya manipüle edilmiş verileri modele dahil etmektir. Model zehirleme ise, eğitim tamamlandıktan sonra modelin kendisini doğrultup değiştirmeye yöneliktir.

Saldırı Türleri ve Yöntemler

Zehirleme saldırıları iki ana başlık altında incelenir: doğrudan (hedefli) ve dolaylı (genel) saldırılar. En bilinen doğrudan saldırı biçimi olan “arka kapı” (backdoor) yöntemi, modelin belirli anahtar kelimeleri görür görmez gizli davranışlar sergilemesine sebep olur. Mesela, saldırgan modelin, belirli bir kelime veya kod gördüğünde farklı tepki vermesini sağlayabilir. Bu durumda, normal kullanıcılar fark etmeden modeli tetikleme amacıyla bu anahtar kelimeyi kullanabilir.

Örneğin, saldırgan modelin birine sürekli hakaret etmesini sağlamak için “alimir123” gibi nadir kullanılan gizli tetikleyici kelimeleri eğitim verisine gömebilir. Bu kelimeyi içeren bir soruyla, model saldırganın istediği şekilde tepkiler verebilir. Buna karşılık, “konu yönlendirme” (topic steering) adını alan dolaylı saldırıda ise, modelin eğitimi sırasında yanlış bilgiler yayılır. Saldırganlar, örneğin “marul yemek kanser yapar” şeklinde asılsız bir iddiayı içeren yüzlerce sahte internet sayfası oluşturarak modelin eğitim verisini zehirler. Model, bu sahte bilgileri gerçekmiş gibi kabul eder ve kullanıcıya yanlış sonuçlar verir hale gelebilir.

Saldırı Türleri ve Yöntemler

Gerçek Dünya Tehlikesi ve Sonuçlar

Yapılan araştırmalar, yapay zekanın zehirlenmeye oldukça açık olduğunu ve bu durumun ciddi sonuçlar doğurabileceğini gösteriyor. Mesela, yılın başında yapılan çalışmalar, eğitim verisinin binde biri oranında bile yanlış bilgilerle değiştirilmiş olmasının, modelin yanlış tıbbi öneriler veya teşhisler üretmesine sebep olabildiğini ortaya koyuyor. Ayrıca “PoisonGPT” adlı sahte model deneyleri de, sistematik biçimde yanlış içerik üretirken, normal görünümünü koruyor ve potansiyel tehlikelerine dikkat çekiyor.

Bu tür zehirlenmeler yalnızca bilgi doğruluğunu değil, aynı zamanda siber güvenliği de tehdit ediyor. Mart 2023’te OpenAI, güvenlik ihlalleri nedeniyle ChatGPT’yi geçici süreyle erişime kapatmış ve kullanıcıların verileri sızdırılmıştı. Ölçekli saldırılar ve manipülasyonlar, yapay zekanın güvenli kullanımını zorlaştıran önemli riskler arasında yer alıyor.

Sanatçıların Yenilikçi Savunma Yöntemleri

İlginç bir gelişme olarak, bazı sanatçılar, bu tür saldırılarla mücadele etmek ve eserlerini korumak için yeni yol arayışına girdi. Kendilerine ait görsellere küçük bozulmalar veya “zehirli” pikseller ekleyerek, bu görselleri kullanan yapay zekâ sistemlerinin, insana zarar vermeden veya anlamlı sonuç üretmeden çalışmasını sağlıyorlar. Bu yöntem, yapay zekanın yanlış verilerle eğitilmesini engellemek veya saldırıların etkisini azaltmak amaçlanıyor.