Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Figen Özmen: “Yapay zekayla sigortacılıkta müşteri güveni yeniden şekilleniyor”

Sigorta sektörünün artık sadece teknolojiyi benimsemekle kalmayıp, müşteri memnuniyeti, güven ve erişilebilirliği önceliklendirdiğini vurguladı. Kullanıcıya teknolojiyle dokunabilen sigorta şirketlerinin öne çıkacağına dikkat çekti. “İnsani dokunuşu …

Sadece yapay zekadan oluşan sosyal medyada kavga çıktı!

Araşıtırmacılar tamamen yapay zekalı botlardan oluşan “yapay” bir sosyal medya geliştirdi ama işler hiç de bekledikleri gibi gitmedi!

Apple’ın yeni kulaklığını takan istediği dili konuşacak

Apple, iOS 26 ile AirPods’a canlı çeviri özelliği getiriyor. Bu kulaklık sayesinde isteyen istediği dili konuşacak.

Evin çatısına düşen cisim Dünya’dan yaşlı çıktı

ABD’nin Georgia eyaletinde bir evin çatısına düşen göktaşı, yapılan analizlere göre Dünya’dan yaklaşık 20 milyon yıl daha yaşlı çıktı. Haziran ayında McDonough kentinde bir evin çatısına düşen bu göktaşı, bilim insanları tarafından incelendi ve 4,56 milyar yıl önce oluştuğu belirlendi.

Hint Okyanusu üzerinde karanlık boşluklar oluştu

ABD Uzay Ajansı (NASA) Hint Okyanusu’ndaki ıssız bir adanın üzerinde bulut girdaplarının oluştuğunu tespit etti.

SMS dolandırıcılığında Magic Cat bitti Magic Mouse geldi

Geçen yıl ortaya çıkan Magic Cat yazılımı, masum bir kedi profil fotoğrafının arkasına saklanarak milyonlarca kişiyi hedef alan devasa bir SMS dolandırıcılığı operasyonunu tetiklemişti. Norveç merkezli güvenlik firması Mnemonic ile NRK, Bayerischer …