Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

3 milyon kişi aynı amaç için toplandı: 34 yıl sonra bir ilk…

Oyun dünyasının köklü serilerinden Doom, yeni yapımıyla yeniden gündemde. Bethesda tarafından geliştirilen ve 17 Mayıs’ta piyasaya sürülen Doom: The Dark Ages, sadece yedi gün içinde 3 milyon oyuncuya ulaşarak şirketin tarihindeki en hızlı çıkış yapan yapımı oldu.

Yapay zeka mühendisi şantajla tehdit etti: Eşi üzerinden gözdağı verdi

Yapay zeka teknolojilerinin sınırları giderek tartışılır hale gelirken, sektörün önemli markalarından Anthropic’in yeni modeli Claude Opus 4’le ilgili tespit edilen bir vaka, bilim kurgu senaryolarını aratmadı… Model, işine gelmeyen bir durumda mühendisleri şantajla tehdit etti.

Türkiye Sujeti ve Flyboard Türkiye Motosurf Şampiyonası Bodrum’da yapılacak

Türkiye Sujeti ve Flyboard Türkiye Motosurf Şampiyonası yarın Muğla’nın Bodrum ilçesinde başlayacak.

Bilim insanları dilin haritasını çıkardı

Araştırmacılar, canımızın nasıl tatlı çektiğini anlamanın obeziteyle mücadeleye yardımcı olabileceğini söylüyor.

Yapay zeka asistanı Gemini’ye doğrudan erişim genişletildi

Samsung, Galaxy A Serisi’nin bazı modellerinde, tek tuşla Google’ın yapay zeka (A) destekli asistanı Gemini’ye doğrudan erişimi genişletti.

Galaxy S25 Edge için sonunda lansman tarihi duyuruldu

Akıllı telefonlarda amiral gemisi segmentinde işler iyice kızışıyor. Apple ile ilgili çıkan dedikoduların ardından Samsung’tan beklenen duyuru geldi ve Galaxy S25 Edge modeli için lansman tarihi açıklandı.