Otizm ile İlişkili Soruları Yanıtlamada Büyük Dil Modellerinin Karşılaştırmalı Değerlendirilmesi: ChatGPT, Gemini ve Copilot’tan Elde Edilen Bulgular

Gamze Demir; Mehmet Sevri; Cafer Doğan Hacıosmanoğlu; Dicle Büyüktaşkın; Ahmet Özaslan

doi:10.12996/gmj.2025.4451

ÖZ

Amaç

Büyük dil modellerinin (large language models, LLM’ler) tıbbi sorulara verdikleri yanıtlar gün geçtikçe daha fazla araştırılmaktadır; ancak, bu modellerin otizm spektrum bozukluğu (OSB) ile ilgili sorulara verdikleri yanıtlar literatürde yeterince incelenmemiştir. Bu çalışma, otizmle ilişkili sorulara verdikleri yanıtlar açısından dört genel erişime açık LLM’i — ChatGPT-3.5, ChatGPT-4.0, Google Gemini ve Microsoft Copilot — değerlendirmeyi ve karşılaştırmayı amaçlamaktadır.

Yöntemler

Otizmle ilişkili sık sorulan on dokuz soru; belirtiler, tanı, tedavi ve genel bilgi olmak üzere dört kategoriye ayrılmıştır. Her bir LLM’nin yanıtları, üç çocuk ve ergen psikiyatristi tarafından Hasta Eğitimi Materyalleri Değerlendirme Aracı ve Küresel Kalite Skoru kullanılarak değerlendirilmiştir. Tematik analiz ile temel konular belirlenmiş; çoğunluk görüşü yaklaşımıyla nihai puanlar oluşturulmuştur. Duygu analizi, yanıtların duygusal kutupluluğunu ve öznellik düzeyini incelemek amacıyla gerçekleştirilmiştir.

Bulgular

ChatGPT-4.0, genel yanıt kalitesi açısından Microsoft Copilot ve Google Gemini’ye kıyasla üstün performans göstermiştir (p=0,006, p=0,009). Yanıtların genel anlaşılırlığı tüm modeller arasında benzer bulunmakla birlikte, ChatGPT-4.0 içerik alt ölçeğinde Microsoft Copilot’tan anlamlı derecede yüksek puan almıştır (p=0,026). Buna karşılık, Google Gemini kelime seçimi ve üslup açısından ChatGPT-4.0’dan daha iyi performans göstermiştir (p=0,041). Tematik analiz büyük dil modellerinin erken tanı ve davranışsal sorunlara vurgu yaptığını ortaya koymuştur. Duygu analizi sonuçları, tüm modellerde yüksek düzeyde nesnellik sergilendiğini göstermiştir. Google Gemini en yüksek kutupluluk skoruna (0,115) sahipken, öznellik puanları tüm modellerde orta-yüksek düzeyde bulunmuş, ChatGPT-4.0 en yüksek öznellik skorunu (0,452) göstermiştir.

Sonuç

Bu çalışma, özellikle ChatGPT-4.0’ın, OSB hakkında yüksek kaliteli ve kolay anlaşılabilir bilgiler sunma potansiyeline sahip olduğunu ortaya koymaktadır. Bununla birlikte, LLM’lerin önyargılara yatkın oluşu ve gerçek hayata uygun akıl yürütme eksikliği gibi sınırlılıkları göz önüne alındığında, bu alanda daha fazla araştırmaya ihtiyaç vardır.

Anahtar Kelimeler:

Anahtar kelimeler: Otizm spektrum bozukluğu, büyük dil modelleri, yapay zekâ, ChatGPT, Gemini, Copilot