Zehirlenme kavramı genellikle insan bedeniyle veya doğayla ilişkilendirilir. Ancak artık aynı tehlike, yapay zekâ dünyasında da hızla büyüyor. Özellikle ChatGPT ve Claude gibi büyük dil modelleri için.

Yapay Zekânın Tehlikeli Yüzü: Zehirleme Saldırıları

İngiltere’de yapılan bir araştırmaya göre, eğitim verilerine sadece 250 kötü niyetli dosya eklenerek, bir yapay zekâ modeli gizlice “zehirlenebiliyor”.

Zehirleme Saldırıları: Bilinmeyen Tehlike

Yapay zekâ zehirleme, bir yapay zekâya yanlış bilgiler öğreterek modelin davranışını değiştirmeyi amaçlar. Bu saldırı türleri, veri zehirleme ve model zehirleme olarak ikiye ayrılır.

Veri Zehirleme: Eğitim verilerine yanlış veya manipüle edilmiş veriler eklenmesi.

Model Zehirleme: Eğitim sonrasında modelin değiştirilmesi.

Zehirleme Saldırılarının Çeşitleri

Zehirleme saldırıları doğrudan ve dolaylı olmak üzere iki grupta incelenir.

Doğrudan Saldırılar: Arka kapı yöntemiyle modelin farklı davranışlar sergilemesi.

Dolaylı Saldırılar: Konu yönlendirme ile modelin yanlış bilgilerle eğitilmesi.

Sonuçlar ve Riskler

Araştırmalar, yapay zekâ zehirlemenin gerçek hayatta ciddi tehlikelere yol açabileceğini ortaya koyuyor. Yanlış bilgilerle eğitilen modeller, siber güvenlik risklerini artırabilir.