Purdue'i ülikooli arvutiteadlaste meeskond avastas, et populaarne keelemudel ChatGPT on arvutiprogrammeerimise küsimustele vastamisel märkimisväärselt ebatäpne. CHI konverentsil „Human Factors in Computing Systems“ avaldatud artiklis kirjeldavad teadlased üksikasjalikult, kuidas nad hankisid küsimusi veebilehelt StackOverflow, esitasid need ChatGPT-le ja mõõtsid mudeli täpsust.
Tulemusi esitleti ka 11.-16. mail toimunud konverentsil CHI 2024.
ChatGPT ja teised suured keelemudelid (LLM) on viimasel ajal pälvinud märkimisväärset tähelepanu, muutudes üldsuse seas laialdaselt populaarseks. Vaatamata sellele, et need mudelid võivad anda palju kasulikku teavet, annavad nad siiski sageli ebatäpseid vastuseid. Murettekitav on see, et alati ei ole ilmne, millal vastused on valed.
Selles uuringus märkis Purdue'i meeskond, et paljud programmeerimisüliõpilased on hakanud kasutama LLMi mitte ainult selleks, et aidata koodi kirjutada ülesannete jaoks, vaid ka selleks, et vastata programmeerimisega seotud küsimustele. Näiteks võib üliõpilane küsida ChatGPT-lt: „Mis vahe on mulli sorteerimisel ja liitmise sorteerimisel?“ või „Mis on rekursioon?“.
Et hinnata LLMide täpsust sellistele küsimustele vastamisel, keskendusid teadlased konkreetselt ChatGPT-le. Nad kasutasid küsimusi, mis on vabalt kättesaadavad veebisaidil StackOverflow, mis on platvorm, mis on loodud selleks, et aidata programmeerijatel õppida, tehes koostööd ja jagades teadmisi. Sellel saidil saavad kasutajad esitada küsimusi, millele teised asjatundjad vastavad.
Uurimisrühm valis StackOverflow'ist välja 517 küsimust ja hindas, kui sageli andis ChatGPT õiged vastused. Uuringus kasutati peamiselt ChatGPT tasuta versioonis kättesaadavat GPT-3.5 mudelit nende 517 küsimuse käsitsi vastamiseks ning kasutati GPT-3.5-turbo API-d suuremaks automatiseeritud testiks, mis hõlmas veel 2000 küsimust. Andmete kogumine toimus märtsis 2023. Kahjuks oli ChatGPT ainult 52% ajast õigesti. Lisaks sellele olid vastused sageli pikemaajalised võrreldes inimekspertide vastustega. Teadlased võrdlesid seda tulemuslikkust ka GPT-4 mudeliga, mis esines veidi paremini, vastates õigesti 6 juhuslikult valitud 21 küsimusest, millele GPT-3.5 oli valesti vastanud. GPT-4 tekitas siiski enamiku valedest vastustest (15 vastust 21-st).
Hirmuäratavalt leidis töörühm, et uuringus osalejad eelistasid 35% juhtudest ChatGPT poolt antud vastuseid. Lisaks sellele ei märganud need osalejad sageli ChatGPT vastustes esinevaid vigu, jättes 39% juhtudest ebaõiged vastused tähelepanuta.
Lisateave: https://techxplore.com/news/2024-05-scientists-chatgpt-inaccurate.html
