Όσο κι αν η συμβολή των νέων εργαλείων τεχνητής νοημοσύνης θεωρείται αδιαμφισβήτητη στην πρόληψη σοβαρών ασθενειών, είναι σε θέση να πάρουν τη θέση ενός γιατρού και μάλιστα καρδιολόγου; Έρευνα απαντά
Οι εξωπραγματικές ικανότητες της τεχνητής νοημοσύνης έχουν προσδώσει νέες δυνατότητες στην ιατρική κοινότητα, συμβάλλοντας από την πρόληψη του καρκίνου του μαστού μέχρι τη σύνθεση νέων φαρμάκων. Παρά όμως τα τόσο θετικά αποτελέσματα, φαίνεται πως η συμβολή των εργαλείων αυτών δεν είναι σε θέση ακόμα να αντικαταστήσουν έναν κανονικά γιατρό.
Πιο συγκεκριμένα, ερευνητές του Πολιτειακού Πανεπιστημίου της Ουάσινγκτον αξιολόγησαν την ικανότητα του ChatGPT-4 να εκτιμά τον κίνδυνο καρδιακής προσβολής μεταξύ προσομοιωμένων ασθενών με πόνο στο στήθος. Παρατήρησαν ότι το συγκεκριμένο σύστημα τεχνητής νοημοσύνης απέτυχε να εξάγει συνεπή συμπεράσματα αλλά και να αντιστοιχίσει τις μεθόδους που χρησιμοποιούν οι γιατροί για να αξιολογήσουν τον καρδιακό κίνδυνο ενός ασθενούς. Με απλά λόγια, η τεχνητή νοημοσύνη μπορεί να είναι σε θέση να διεκπεραιώσει μια ιατρική εξέταση, αλλά δεν μπορεί να αντικαταστήσει ακόμη τον καρδιολόγο σας.
Στη νέα αυτή μελέτη που δημοσιεύθηκε στο PLoS ONE, οι ερευνητές δημιούργησαν τρία σύνολα προσομοιωμένων δεδομένων ασθενών: τα δύο ήταν βασισμένα σε μεταβλητές – όπως τα συμπτώματα, το ιατρικό ιστορικό και η ηλικία- που χρησιμοποιούνται στη βαθμολογία TIMI και στη βαθμολογία HEART -δύο μέτρα που εκτιμούν τον καρδιακό κίνδυνο- και ένα τρίτο που περιλάμβανε 44 διαφορετικές μεταβλητές, σχετικές με έναν ασθενή που αντιμετωπίζει πόνο στο στήθος. Στη συνέχεια τροφοδότησαν αυτά τα δεδομένα στο ChatGPT-4 και του ζήτησαν να υπολογίσει μια βαθμολογία κινδύνου για κάθε περίπτωση ασθενούς.
Τα θετικά και τα αρνητικά
Συνολικά, οι εκτιμήσεις κινδύνου του ChatGPT-4 συσχετίστηκαν πολύ καλά με τις δοκιμασμένες βαθμολογίες TIMI και HEART. Εν ολίγοις, με τη σωστή εκπαίδευση, τα μοντέλα αυτά έχουν τη δυνατότητα να αποτελέσουν πολύτιμα εργαλεία για να βοηθήσουν τους γιατρούς να εκτιμήσουν γρήγορα και με ακρίβεια τον κίνδυνο ενός ασθενούς.
Ωστόσο, όταν οι ερευνητές τροφοδοτούσαν το ChatGPT-4 με τα ίδια ακριβώς δεδομένα ασθενών πολλές φορές, συχνά εξήγαγε πολύ διαφορετικές βαθμολογίες κινδύνου. Στην πραγματικότητα, για ασθενείς με σταθερή βαθμολογία TIMI ή HEART, το ChatGPT-4 έδινε διαφορετική βαθμολογία σχεδόν τις μισές φορές. Αυτή η ασυνέπεια ήταν ακόμη πιο έντονη στο πιο σύνθετο μοντέλο 44 μεταβλητών, στο οποίο το ChatGPT-4 κατέληξε σε συναίνεση σχετικά με την πιο πιθανή διάγνωση μόνο στο 56% των περιπτώσεων.
«Το ChatGPT έδινε ασυνεπείς απαντήσεις: με τα ακριβώς ίδια δεδομένα, έδινε αρχικά μια βαθμολογία χαμηλού κινδύνου, την επόμενη φορά έναν ενδιάμεσο κίνδυνο και περιστασιακά έφτανε στο σημείο να δώσει υψηλό κίνδυνο» εξηγεί ο επικεφαλής συγγραφέας της μελέτης Δρ Thomas Heston, ερευνητής του Elson S. Floyd College of Medicine του Washington State University.
Μέρος του προβλήματος, σύμφωνα με τις εξηγήσεις των ερευνητών, ενδεχομένως να έγκειται στον τρόπο με τον οποίο σχεδιάζονται τα γλωσσικά μοντέλα όπως το ChatGPT-4. Για να μιμηθούν τη μεταβλητότητα και τη δημιουργικότητα της ανθρώπινης γλώσσας, ενσωματώνουν ένα στοιχείο πιθανοτήτων. Αν και αυτό κάνει τις απαντήσεις να ακούγονται πιο φυσικές, μπορεί σαφώς να γίνει προβληματικό όταν η συνέπεια είναι το κλειδί, όπως στις ιατρικές διαγνώσεις και τις εκτιμήσεις κινδύνου.
Τελικά, οι ερευνητές διαπίστωσαν ότι το ChatGPT-4 παρουσίασε καλύτερες επιδόσεις για τους ασθενείς που βρίσκονταν στο χαμηλό και στο υψηλό άκρο του φάσματος κινδύνου. Στους ασθενείς μεσαίου κινδύνου οι εκτιμήσεις της τεχνητής νοημοσύνης ήταν εντελώς διαφορετικές. Αυτό είναι ιδιαίτερα ανησυχητικό, καθώς πρόκειται για τους ασθενείς για τους οποίους η ακριβής διαστρωμάτωση του κινδύνου είναι πιο σημαντική για την καθοδήγηση της κλινικής λήψης αποφάσεων.
Παρά τους σημερινούς περιορισμούς, οι ερευνητές παραμένουν αισιόδοξοι για το μέλλον της τεχνητής νοημοσύνης στην ιατρική. Προτείνουν ότι εργαλεία όπως το ChatGPT-4, με περαιτέρω βελτίωση και σε συνδυασμό με καθιερωμένες κλινικές κατευθυντήριες γραμμές, θα μπορούσαν μελλοντικά να βοηθήσουν τους γιατρούς να κάνουν ταχύτερες και ακριβέστερες εκτιμήσεις, οδηγώντας τελικά σε καλύτερη φροντίδα των ασθενών.