Yapay zeka testlerinde skandal: 445 değerlendirme sisteminde hata

Oxford, Stanford ve Berkeley üniversitelerinin de aralarında bulunduğu 14 kurumun yaptığı araştırma, yapay zekanın güvenliği ve etkinliğini ölçen 445 testin neredeyse tamamında ciddi kusurlar bulunduğunu ortaya koydu.

04.11.2025 - 15:16 Yayınlanma

1 Dk Okunma Süresi

Yapay zeka testlerinde skandal: 445 değerlendirme sisteminde hata

Bilim insanları, yapay zekanın güvenliği ve etkinliğini kontrol eden 445 değerlendirme testinde "sonuçların geçerliliğini zedeleyecek" kusurlar olduğunu tespit etti.

14 KURUMDAN 29 ARAŞTIRMACI ÇALIŞMA YAPTI

İngiltere Yapay Zeka Güvenlik Enstitüsünden bilgisayar bilimciler ile Stanford, Berkeley ve Oxford üniversitelerinin de aralarında bulunduğu 14 kurumdan 29 araştırmacı, "Önemli Olanı Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliği" başlıklı bir çalışma yaptı.

445 TEST SİSTEMATİK OLARAK İNCELENDİ

Bilim insanları çalışmada, yapay zekanın alt dallarından olan "doğal dil işleme" ve "makine öğrenimi" alanlarının önde gelen konferanslarından alınan 445 değerlendirme testini sistematik olarak inceledi.

İncelemeler sonucunda, testlerin neredeyse hepsinin "sonuçların geçerliliğini zedeleyebilecek" kusurlara sahip olduğu sonucuna ulaşıldı.

Çalışmanın baş yazarı, Oxford İnternet Enstitüsünden Andrew Bean, çalışmaya ilişkin Guardian'a yaptığı açıklamada, kullanılan bu testlerin büyük teknoloji şirketleri tarafından piyasaya sürülen son yapay zeka modellerinin değerlendirilmesinde kullanıldığını söyledi.

Bean, değerlendirme testlerinin yapay zekayla ilgili tüm iddiaların temelini oluşturduğuna vurgu yaparak ortak tanımlar ve sağlıklı ölçümler olmadan modellerin gerçekten gelişip gelişmediğini anlamanın zorlaştığını kaydetti.

Adobe’den devrim niteliğinde yapay zeka: Tek tıkla tüm videoyu düzenliyor

İçeriği Görüntüle

Kaynak: AA

Editörün Seçtiği

Ülkü Ocakları Genel Merkezi'nin Terasında Gizemli Görüntüler

Editörün Seçtiği

Beşiktaş ile Fenerbahçe 362. randevuda karşı karşıya

Editörün Seçtiği

MASAK yasa dışı bahisle mücadele için görevlendirildi

Editör Hakkında

Batuhan Börcan

Yorumlar

Süper Lig Puan Durumu

Süper Lig

#	Takım	O	P
1	Galatasaray	11	29
2	Fenerbahçe	11	25
3	Trabzonspor	11	24
4	Samsunspor	11	20
5	Göztepe	11	19
6	Gaziantep FK	11	18
7	Beşiktaş	11	17
8	Konyaspor	11	14
9	Alanyaspor	11	14
10	Başakşehir	11	13

Detaylar için tıklayın

Süper Lig Fikstür

7 Kasım, Cuma
Gençlerbirliği - Başakşehir
20:00

8 Kasım, Cumartesi
Gaziantep FK - Rizespor
14:30
Trabzonspor - Alanyaspor
17:00
Kasımpaşa - Göztepe
20:00
Antalyaspor - Beşiktaş
20:00

9 Kasım, Pazar
Fatih Karagümrük - Konyaspor
14:30
Kocaelispor - Galatasaray
17:00
Fenerbahçe - Kayserispor
20:00
Samsunspor - Eyüpspor
20:00

Yapay zeka testlerinde skandal: 445 değerlendirme sisteminde hata

Oxford, Stanford ve Berkeley üniversitelerinin de aralarında bulunduğu 14 kurumun yaptığı araştırma, yapay zekanın güvenliği ve etkinliğini ölçen 445 testin neredeyse tamamında ciddi kusurlar bulunduğunu ortaya koydu.

14 KURUMDAN 29 ARAŞTIRMACI ÇALIŞMA YAPTI

445 TEST SİSTEMATİK OLARAK İNCELENDİ

Canva’dan dev yapay zeka hamlesi: Tamamen ücretsiz

Yapay zekanın öğretmeni! En fazla bilgiyi Reddit'ten alıyor

Kiralık cep telefonu dönemi başladı

Amazon ve OpenAI'dan 7 yıllık ortaklık: 38 milyar dolar

ChatGPT’de yeni dönem: Artık uzman değil!

Adobe’den devrim niteliğinde yapay zeka: Tek tıkla tüm videoyu düzenliyor