Oral Presentation - 75
How does ChatGPT perform on the European Board of Pediatric Surgery examination? A randomized comparative study
M Azizoğlu*, B Aydoğdu**
*Istanbul Esenyurt State Hospital, Department of Pediatric Surgery, Turkey
**Department of Pediatric Surgery, Faculty of Medicine Balıkesir Üniversity, Balıkesir, Turkey
Aim
The purpose of this study was to conduct a detailed comparison of the accuracy and responsiveness of GPT-3.5 and GPT-4 in the realm of pediatric surgery. Specifically, we sought to assess their ability to correctly answer a series of sample questions of European Board of Pediatric Surgery (EBPS) exam.
Methods
This study was conducted between 20 May 2023 and 30 May 2023. This study undertook a comparative analysis of two AI language models, GPT-3.5 and GPT-4, in the field of pediatric surgery, particularly in the context of EBPS exam sample questions. Two sets of 105 (total 210) sample questions each, derived from the EBPS sample questions, were collated
Results
In General Pediatric Surgery, GPT-3.5 provided correct answers for 7 questions (46.7%), and GPT-4 had a higher accuracy with 13 correct responses (86.7%) (p=0.020). For Newborn Surgery and Pediatric Urology, GPT-3.5 correctly answered 6 questions (40.0%), and GPT-4, however, correctly answered 12 questions (80.0%) (p= 0.025). In total, GPT-3.5 correctly answered 46 questions out of 105 (43.8%), and GPT-4 showed significantly better performance, correctly answering 80 questions (76.2%) (p<0.001). Given the total responses, when GPT-4 was compared with GPT-3.5, the Odds Ratio was found to be 4.1. This suggests that GPT-4 was 4.1 times more likely to provide a correct answer to the pediatric surgery questions compared to GPT-3.5.
Conclusion
This comparative study concludes that GPT-4 significantly outperforms GPT-3.5 in responding to EBPS exam questions.
ChatGPT Avrupa Pediatrik Cerrahi Kurulu sınavında nasıl performans gösteriyor? Randomize karşılaştırmalı bir çalışma
M Azizoğlu*, B Aydoğdu**
*Istanbul Esenyurt State Hospital, Department of Pediatric Surgery, Turkey
**Balıkesir Üniversitesi Çocuk Cerrahisi ABD
Amaç
Bu çalışmanın amacı, GPT-3.5 ve GPT-4'ün çocuk cerrahisi alanındaki doğruluk ve duyarlılığını ayrıntılı bir şekilde karşılaştırmaktır. Özellikle, bu iki modelin Avrupa Çocuk Cerrahisi Yeterlilik Sınavı (EBPS) örnek sorularına doğru cevap verme yeteneklerini değerlendirmeyi hedefledik.
Yöntemler
Bu çalışma 20 Mayıs 2023 ile 30 Mayıs 2023 tarihleri arasında gerçekleştirildi. Çalışmada, çocuk cerrahisi alanında GPT-3.5 ve GPT-4 adlı iki yapay zeka dil modelinin, özellikle EBPS sınavı örnek soruları bağlamında karşılaştırmalı bir analizi yapıldı. EBPS örnek sorularından elde edilen iki setten her biri 105 sorudan (toplam 210) oluşan örnek sorular toplandı.
Bulgular
Genel Çocuk Cerrahisi alanında, GPT-3.5 7 soruya (46,7%) doğru cevap verirken, GPT-4 13 soruya (86,7%) doğru cevap vererek daha yüksek bir doğruluk gösterdi (p=0.020). Yenidoğan Cerrahisi ve Çocuk Ürolojisi alanında, GPT-3.5 6 soruya (40%) doğru cevap verirken, GPT-4 ise 12 soruya (80%) doğru cevap verdi (p=0.025). Toplamda, GPT-3.5 105 sorudan 46 soruya (yüzde 43,8) doğru cevap verdi, GPT-4 ise önemli ölçüde daha iyi bir performans göstererek 80 soruya (76,2%) doğru cevap verdi (p<0.001). Toplam yanıtlar dikkate alındığında, GPT-4'ün GPT-3.5'e kıyasla doğru cevap verme olasılığı 4,1 kat daha fazla bulundu. Bu da GPT-4'ün çocuk cerrahisi sorularına GPT-3.5'e göre 4,1 kat daha doğru cevap verme olasılığı olduğunu göstermektedir.
Sonuç
Bu karşılaştırmalı çalışma, GPT-4'ün EBPS sınavı sorularına yanıt verme konusunda GPT-3.5'i önemli ölçüde geride bıraktığını ortaya koymaktadır.