1960’ların Sohbet Robotu ELIZA, Günümüzün Başarılı İnsan Taklitçisi ChatGPT’yi Yeniyor!
Günümüzün en gelişmiş sohbet robotlarından biri olan GPT-3.5, görünüşe göre 1960’ların ilk sohbet robotlarından biri olan ELIZA ile yapılan bir Turing testinde geride kaldı.
ChatGPT, ELIZA Karşısında Yenildi
UC San Diego’dan iki araştırmacı, “GPT-4 Turing Testini Geçiyor mu?” adlı bir ön baskı araştırma makalesinde, OpenAI’ın GPT-4 yapay zeka dil modelini insan katılımcılarla, GPT-3.5 ve ELIZA ile karşılaştırdı. Ancak bu hakemli olmayan çalışma, insan katılımcıların oturumların sadece yüzde 63’ünde diğer insanları doğru bir şekilde tanımladığını ve 1960’ların ELIZA’sının ChatGPT’nin ücretsiz sürümünü geride bıraktığını ortaya koydu.
Alan Turing tarafından ortaya atılan Turing testi, bir makinenin insan konuşmasını ne kadar iyi taklit edebildiğini belirlemek için kullanılır. Test, bir insan yargıcın, bir insanla veya bir sohbet robotuyla konuşurken hangisinin hangisi olduğunu bilmeden ayırt etmeye çalıştığı tipik bir senaryo içerir. Yargıç, sohbet robotunu insanla belirli bir oranda karıştıramazsa, sohbet robotu testi geçmiş sayılır. Ancak bu geçme eşiği nispeten öznel bir değerlendirmeye dayanır.
Sonuçlar Şaşırtıcıydı
Araştırma sonuçlarına göre, 1960’larda geliştirilen ELIZA, yüzde 27’lik bir başarı oranı elde ederek sıradışı bir şekilde başarılı oldu. GPT-3.5 ise yüzde 14’lük bir başarı oranı ile geride kaldı. GPT-4 ise yüzde 41’lik bir başarı oranı ile ELIZA’nın hemen arkasında yer aldı.
Ancak GPT-4, Turing testinin kesin başarı kriterlerini karşılamadı ve insan katılımcıların başarı oranını aşmadı. Araştırmacılar, GPT-4 veya benzer modellerin doğru uyarı tasarımı ile Turing testini geçebileceğini düşünüyorlar. Ancak asıl zorluk, insan konuşma tarzlarını mükemmel bir şekilde taklit etmekte yatıyor. Ayrıca, insanlar arasındaki iletişim karmaşıklığını ve beklentilerini yansıtmak da önemlidir.
Turing testi geçişinin, sadece yapay zekanın yeteneklerinden ziyade testin kendisinin doğası ve yapısı ile ilgili karmaşık bir mesele olduğu görünüyor.