Παρασκευή 22 Σεπτεμβρίου 2023

Αποκαλύπτοντας τις γλωσσικές «εμμονές» και τα λάθη της ΤΝ


Μπορούν τα σημερινά προγράμματα Τεχνητής Νοημοσύνης (ΤΝ) να αναγνωρίσουν αν ένα γραπτό κείμενο, π.χ. ένα άρθρο στον Τύπο ή μια έκθεση εργασίας, γράφτηκε από έναν άνθρωπο ή από μια μηχανή ΤΝ; 

Από πρόσφατη έρευνα που έγινε στο Πανεπιστήμιο Στάνφορντ, προκύπτει ότι οι διαθέσιμοι σήμερα αλγόριθμοι ταυτοποίησης κειμένων είναι εξαιρετικά επισφαλείς, πρακτικά αναποτελεσματικοί και άρα δημιουργούν περισσότερα προβλήματα από αυτά που επιλύουν.

Για να μάθετε αν ο συντάκτης ενός κειμένου είναι ένας άνθρωπος ή ένα από τα υπάρχοντα υπολογιστικά προγράμματα γραφής, μπορείτε να καταφύγετε σε κάποια ειδικά προγράμματα ΤΝ για την ταυτοποίηση, αξιολόγηση του κειμένου και την αναγνώριση του συντάκτη του. Εξετάζοντας κάποια γλωσσικά, συντακτικά και τα ιδιαίτερα εκφραστικά χαρακτηριστικά του κειμένου, οι αλγόριθμοι αυτών των προγραμμάτων μπορούν υποτίθεται να αποφασίζουν -με σχετική επιτυχία- αν ένα κείμενο είναι γραμμένο από «ανθρώπινο χέρι» ή όχι.

Κάτι που δυστυχώς δεν ισχύει, όπως μας αποκαλύπτει μια νέα και πολύ διαφωτιστική έρευνα που έγινε στις ΗΠΑ και δημοσιεύτηκε πριν από έναν μήνα στο ειδικό επιστημονικό περιοδικό «Patterns». Πράγματι, μια ομάδα από ερευνητές του Πανεπιστημίου Στάνφορντ -κορυφαίου πανεπιστημιακού ιδρύματος των ΗΠΑ στον τομέα της πληροφορικής τεχνολογίας- όταν υπέβαλε σε πειραματικό έλεγχο τα πιο γνωστά προγράμματα αναγνώρισης κειμένων, διαπίστωσε ότι όλα ανεξαιρέτως είναι πολύ αναξιόπιστα.

Πιο συγκεκριμένα, οι ερευνητές αυτοί υπέβαλαν σε έλεγχο -μέσω ορισμένων αναγνωρισμένων γλωσσικών τεστ TOEFL για τη γνώση της αγγλικής- επτά γνωστά προγράμματα ανίχνευσης κειμένων, που είχαν γραφτεί μέσω του Παραγωγικού Προεκπαιδευμένου Μετασχηματιστή ή ChatGPT (Generative Pre-trained Transformer). Το ChatGPT είναι ένα πολύ γνωστό και σχετικά εύχρηστο πρόγραμμα Τεχνητής Νοημοσύνης για την επικοινωνία ανθρώπου-μηχανής, που κυκλοφόρησε από την OpenAI τον Νοέμβριο 2022 και έκτοτε βελτιώνεται συνεχώς.

Όταν, λοιπόν, οι ερευνητές στο Στάνφορντ ανέλυσαν 91 κείμενα γραμμένα στα αγγλικά από ανθρώπους που, ενώ ήταν αγγλόφωνοι, τα αγγλικά δεν ήταν η μητρική τους γλώσσα, διαπίστωσαν ότι οι αλγόριθμοι των 7 προγραμμάτων γλωσσικής ανίχνευσης ταξινομούσαν πάνω από το 50% αυτών των κειμένων ως γραμμένα από κάποια μηχανή ΤΝ και όχι από ανθρώπους, ενώ οι ίδιοι αλγόριθμοι ανίχνευσης ταξινόμησαν σωστά ως ανθρώπινα το 90% των κειμένων που είχαν γραφτεί από Αμερικανούς μαθητές της μέσης εκπαίδευσης.

Επισφαλείς ανιχνευτές λόγω γλωσσικών προκαταλήψεων

Το πρόβλημα με αυτούς τους επτά αλγόριθμους ή μηχανές ανίχνευσης είναι ότι ταξινομούν αυτομάτως τα κείμενα και άρα τους συντάκτες τους ως προϊόντα ΤΝ, επειδή έχουν προγραμματιστεί να αναγνωρίζουν ως τυπικά ανθρώπινο ένα γραπτό κείμενο, μόνο αν παρουσιάζει επαρκή λεκτική ποικιλομορφία και συντακτική ανομοιογένεια: αν δηλαδή περιέχει αρκετές ασυνήθιστες ή λόγιες λέξεις και συντακτικές ατέλειες. Αντίθετα, όταν στο κείμενο υπάρχει μεγάλη γλωσσική ομοιομορφία, λεξιλογική κοινοτοπία και συντακτική ή εκφραστική ομοιογένεια, τότε αυτά τα γλωσσικά χαρακτηριστικά εκλαμβάνονται από τα ανιχνευτικά προγράμματα ως σαφής ένδειξη παρουσίας Τεχνητής Νοημοσύνης πίσω από τον συντάκτη του κειμένου.

Με άλλα λόγια, αυτά τα επτά προγράμματα ανίχνευσης δεν έχουν προγραμματιστεί να αναγνωρίζουν «ως ανθρώπινα» τα αγγλικά π.χ. των αλλοδαπών που δε διαθέτουν τη γλωσσική ευχέρεια όσων έχουν ως μητρική γλώσσα τα αγγλικά. Συνεπώς, μόνο όσοι μπορούν να εκφράζονται στα αγγλικά με έναν λεκτικά πλούσιο και γλωσσικά επιτηδευμένο τρόπο θεωρούνται άνθρωποι από αυτά τα προγράμματα ΤΝ!

Πρόκειται για πολύ σοβαρή λειτουργική ανεπάρκεια αυτών των ανιχνευτικών μηχανών, που αποκρύπτει και μια ολοφάνερη ρατσιστική γλωσσική προκατάληψη, η οποία προφανώς οφείλεται στο ότι τα ευρείας χρήσεως υπολογιστικά γλωσσικά μοντέλα, όπως το ChatGPT για την αγγλική γλώσσα, έχουν εκπαιδευτεί για να συντάσσουν και να προσομοιώνουν την αγγλική γλώσσα που μιλά ο μέσος όρος όσων έχουν την αγγλική ως μητρική γλώσσα. Και δεδομένου ότι όσοι δεν έχουν τα αγγλικά ως μητρική γλώσσα τείνουν, όταν γράφουν, να χρησιμοποιούν ένα πολύ πιο περιορισμένο λεξιλόγιο και μια απλούστερη ή κοινότοπη συντακτική δομή, τα κείμενά τους, σύμφωνα τουλάχιστον με σχετικά προγράμματα ανίχνευσης της ChatGPT, δεν μπορούν παρά να αναγνωρίζονται και να ταξινομούνται ως προϊόντα ΤΝ.

Οι κοινωνικές συνέπειες των «προγραμματικών ατελειών» που εμφανίζουν αυτές οι ρατσιστικές μηχανές γλωσσικής ανίχνευσης, που χρησιμοποιούνται πλέον παντού στις αγγλόφωνες χώρες, είναι ολοφάνερα καταστροφικές. Κάτι που αναγνωρίζουν ρητά και οι συντάκτες του σχετικού άρθρου στο περιοδικό «Patterns», οι οποίοι τονίζουν επαρκώς ότι οι γλωσσικές προκαταλήψεις των σημερινών ανιχνευτών ΤΝ επιβάλλουν, αφενός, ανυπέρβλητες δυσκολίες για την αποδοχή των κειμένων που υπογράφονται από μετανάστες ή αλλοδαπούς και, αφετέρου, αθέμιτες διακρίσεις στη γνωστική και επαγγελματική αξιολόγηση των κειμένων τους, στο πλαίσιο μιας, κατά τα άλλα, «ελεύθερης αγοράς» των πνευματικών προϊόντων.

Τελικά, το να χρησιμοποιούμε αλγόριθμους για να αξιολογούν τη χρήση ή όχι αλγόριθμων στη δημιουργία κειμένων δεν είναι μια καθόλου καλή ιδέα, αφού οδηγεί σε κατάφωρα ανελεύθερες και αντιδημοκρατικές πρακτικές. Για παράδειγμα, η χρήση ανιχνευτών GPT για τον εντοπισμό και τον αυτόματο αποκλεισμό από το Διαδίκτυο των κειμένων που δημιουργούνται δόλια από συστήματα ΤΝ, ενδέχεται να οδηγήσει στη δημιουργία νέων «μηχανών αναζήτησης» που θα επιτρέπουν στην Google να αποκλείει όχι μόνο τα κείμενα που γράφονται από κάποια ΤΝ, αλλά και αυτά που υπογράφονται από τους μη επαρκείς γνώστες της αγγλικής γλώσσας, όπως οι μετανάστες.

https://www.efsyn.gr/epistimi/epistimonika-nea/403169_apokalyptontas-tis-glossikes-emmones-kai-ta-lathi-tis-tn

 

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου

Το blog TEO O ΜΑΣΤΟΡΑΣ ουδεμία ευθύνη εκ του νόμου φέρει σχετικά σε άρθρα που αναδημοσιεύονται από διάφορα ιστολόγια. Δημοσιεύονται όλα για την δική σας ενημέρωση.