Amerikan Fiziksel Tıp ve Rehabilitasyon Kurulu Sınavı Deneme Sorularında Gemini, DeepSeek ve ChatGPT-4o’nun Performans Karşılaştırması

Gonca Sağlam Akkaya; Hanife Baykal Şahin

doi:10.4274/tod.galenos.2025.04875

Öz

Amaç

Büyük dil modellerinin (BDM’ler) hızlı gelişimi, tıp eğitimi ve değerlendirmesinde önemli bir potansiyel göstermiştir. Bu çalışmanın amacı, önde gelen üç BDM olan Gemini, DeepSeek ve ChatGPT-4o’nun, Amerikan Fiziksel Tıp ve Rehabilitasyon Kurulu (ABPMR) sertifika sınavını temsil eden deneme sorularını yanıtlama performansını değerlendirmekti. Bu modellerin tıp öğrencileri için yardımcı araçlar olarak mevcut yeteneklerini anlamak için farklı tıbbi alanlardaki doğruluklarını karşılaştırma hedeflendi.

Gereç ve Yöntem

2015 yılında erişime sunulmuş olan 100 adet ABPMR deneme sorusundan oluşan kapsamlı bir set kullandıldı. Bu sorular, geniş konu çeşitliliği ve klinik senaryoları kapsamakta olup, Gemini, DeepSeek ve ChatGPT-4o’nun web arayüzlerine sistematik bir şekilde girildi. Yanıtlar, tarafsız bir değerlendirme sağlamak amacıyla, hangi BDM tarafından üretildiği bilinmeyen (körleme yöntemi) bağımsız bir fiziksel tıp ve rehabilitasyon uzmanı tarafından analiz edildi.

Bulgular

DeepSeek, %88 ile en yüksek genel doğruluğa ulaştı. Gemini’den (%81, p=0,022) önemli ölçüde daha iyi performans göstermiş, ancak ChatGPT-4o’dan (%86, p=0,238) istatistiksel olarak anlamlı bir farkla ayrılmamıştı. Modeller, farklı uzmanlık alanlarında değişen güçlü yönler sergiledi. ChatGPT-4o, nörolojik bozukluklar (%90) ve elektrodiyagnoz (%87) alanlarında en yüksek performansı gösterdi. Buna karşılık, DeepSeek kas-iskelet tıbbı (%88), hasta yönetimi (%97) ve ampütasyon (%100) alanlarında lider oldu. Gemini ise ekipman/yardımcı teknoloji (%90) alanında DeepSeek ile benzer bir performans sergiledi. Rehabilitasyon sorunları (%93), temel bilimler (%80) ve uygulamalı bilimler (%83) gibi alanlarda ise modeller arasında anlamlı bir fark bulunmadı.

Sonuç

Bulgularımız, DeepSeek’in genel performansta üstünlük gösterse de, her üç BDM’nin de fiziksel tıp ve rehabilitasyonun farklı alanlarında benzersiz ve tamamlayıcı güçlü yönlere sahip olduğunu düşündürmektedir. Alana göre yapılan analizlerde istatistiksel olarak anlamlı farklılıkların bulunmaması, BDM etkinliğinin göreve özgü değişkenliğini vurgulamaktadır. Bu sonuçlar, BDM’lerin tıp eğitiminde umut verici ek araçlar olduğunu göstermekle birlikte, karmaşık klinik muhakemedeki kalıcı sınırlamaları nedeniyle insan gözetiminin ve doğrulamasının kritik önemini koruduğunu vurgulamaktadır.

Anahtar Kelimeler:

Büyük dil modelleri, fiziksel tıp ve rehabilitasyon, tıp eğitimi