0

Σε ποιο βαθμό αναγνωρίζουμε τα fake-news ή την ταυτότητα ενός συγγραφέα; Η τεχνητή νοημοσύνη απαντά σε ζητήματα που έως πρότινος ήταν αδύνατο. Ο υπολογιστής μπορεί να εντοπίσει το φύλο, την ηλικία, το επάγγελμα, τις πολιτικές ή θρησκευτικές πεποιθήσεις, τον τόπο καταγωγής, ακόμη και αν ο συγγραφέας ενός λογοτεχνικού έργου που υπογράφει με γυναικείο ψευδώνυμο, τελικά είναι άνδρας. Ο καθηγητής Υπολογιστικής και Ποσοτικής Γλωσσολογίας Γιώργος Μικρός, μας εισάγει στον μαγικό κόσμο της αποκρυπτογράφισης του συγγραφικού ύφους.

Δείτε το βίντεο:


Δρ Γιώργος Μικρός: Ο κορυφαίος Έλληνας γλωσσολόγος που αποκωδικοποιεί τα μυστήρια των λέξεων

Τι αποκαλύπτει ένα κείμενο για την ταυτότητα μας; Τι λένε οι ορθογραφικές αποκλίσεις για τον χαρακτήρα μας; Τα ορθογραφικά λάθη έχουν μοτίβα; Είναι η συνήθεια κομμάτι της υφομετρικής μας ταυτότητας; Ποιοι πραγματικά είμαστε μέσα από τα γραπτά μας; Ποιος βρίσκεται πίσω από ένα κείμενο; Τι κρύβεται πίσω από τις λέξεις;

Σε αυτά τα ερωτήματα καλείται να δώσει σαφείς απαντήσεις ο Δρ. Γεώργιος Μικρός αποκωδικοποιώντας τον κόσμο των λέξεων και των γραπτών που αποτελούν ένα από τα μοναδικά αποτυπώματα της ανθρώπινης ταυτότητας. Ο κορυφαίος Έλληνας γλωσσολόγος που θυμίζει τη ρεαλιστική εκδοχή του μυθιστορηματικού πρωταγωνιστή των μυστικιστικών θρίλερ του Νταν Μπράουν, καθηγητή Ρόμπερτ Λάνγκτον, με σύμμαχο την υψηλή τεχνολογία και την τεχνητή νοημοσύνη, λύνει γρίφους και εντοπίζει ανώνυμους συγγραφείς πολλές φορές μέσα από τα απρόσιτα και σκοτεινά μονοπάτια του συναρπαστικού κόσμου της γλώσσας σε μια ατελείωτη περιπέτεια, που όπως ο ίδιος συνηθίζει να λέει ακροβατεί, στα όρια της αβεβαιότητας.

Καθηγητής Τμήμα Ιταλικής Γλώσσας και Φιλολογίας του ΕΚΠΑ, με σημαντικές συνεργασίες σε πανεπιστήμια των ΗΠΑ, ο κ. Μικρός βρίσκεται από το 2019, στο Πανεπιστήμιο Hamad Bin Khalifa (HBKU)στο Κατάρ.

Με γνωστικό αντικείμενο την υπολογιστική και ποσοτική επεξεργασία γλωσσών και ειδικός στην Υφομετρία, από την καλοκαιρινή Ντόχα, μιλάει μέσω Skype για την επιστήμη του η οποία σε έναν τέλειο συνδυασμό με τα προγράμματα τεχνητής νοημοσύνης που ο ίδιος τρέχει, αποτελούν τα «έξυπνα» όπλα της επιστημονικής κοινότητας.

Μάλιστα, αναφέρεται και στην τελευταία επιτυχία της ομάδας των έξι επιστημόνων από όλο τον κόσμο που κλήθηκαν να ξεσκεπάσουν μέσω της επιστημονικής έρευνας την αινιγματική Έλενα Φεράντε. Την κορυφαία Ιταλίδα συγγραφέα που για τρεις δεκαετίες είχε στήσει έναν μύθο γύρω από το όνομα της και να τεκμηριώσουν ότι πίσω από τη φεμινιστική πένα της μυστηριώδους Φεράντε κρύβεται ένας άνδρας συγγραφέας, ο Ντομένικο Σταρνόνε λέγοντας πια με βεβαιότητα ότι «Η Έλένα Φεράντε είναι ο Ντομένικο Σταρνόνε. Φεράντε και Σταρνόνε είναι το ίδιο πρόσωπο».

Η αποκάλυψη της Έλενα Φεράντε

Για τρεις δεκαετίες το όνομα της Έλενα Φεράντε, της διάσημης Ιταλίδας μυθιστοριογράφου, που τα βιβλία της έχουν μεταφραστεί σε περισσότερες από 40 γλώσσες ήταν συνώνυμο ενός πυκνού μυστηρίου στον αινιγματικό κόσμο της σύγχρονης λογοτεχνίας. Η Ναπολιτάνα μυθιστοριογράφος που πάντα αποτυπώνει μέσα από το πρίσμα της γυναίκας απόψεις, καταστάσεις και συναισθήματα στην μεταπολεμική Ιταλία, με τεράστιο βάρος στη διεθνή λογοτεχνία έχει στήσει έναν ολόκληρο μύθο γύρο από τη συγγραφική της και όχι μόνο υπόσταση.

Ο δρ. Μικρός ξεδιπλώνει το συναρπαστικό ταξίδι της αποκάλυψης, σε μια πρόκληση που πνιγόταν στην αβεβαιότητα για να καταλήξει μέσα από την επιστημονική έρευνα στην απόλυτη βεβαιότητα. «Το Φεράντε είναι ψευδώνυμο. Δεν ξέρουμε ποια είναι η Φεράντε. Και κάποια στιγμή επιστήμονες κατέληξαν ότι πρέπει να σχετίζεται με τον Ντομένικο Σταρνόνε. Τον Απρίλιο του 2017 δύο συνάδελφοι από το πανεπιστήμιο της Πάντοβα σκέφτηκαν ότι θα ήταν καλή ιδέα να κάνουμε συλλογικά μια έρευνα για τη Φεράντε. Κληθήκαμε έξι υφομέτρες από όλο τον κόσμο και μέσα από ένα μεγάλο corpus, έγινε ανάλυση των βιβλίων της Φεράντε .

Στην ουσία ήταν ένα corpus όλης της σύγχρονης ιταλικής λογοτεχνίας που περιελάμβανε 40 συγγραφείς, 150 διηγήματα, 10.000.000 λέξεις» αναφέρει ο κ. Μικρός και προχωρά στην ανάλυση που οδήγησε στη λύση του μυστηρίου και την ταυτότητα της Έλενα Φεράντε «το πρόβλημα έγινε ανοικτό το πρόβλημα και έπρεπε να απαντηθεί το ερώτημα «Ποιος θα μπορούσε να έχει γράψει τα βιβλία της Φεράντε;» Με author profiling χρησιμοποιώντας φύλο, ηλικία, περιοχή, πόλη καταγωγής καταφέραμε να μικρύνουμε κατά πολύ αυτό το τεράστιο δείγμα.

Για το φύλλο ήμασταν σίγουροι ότι ήταν γυναίκα. Γιατί όσοι έχουν διαβάσει Φεράντε, θα πουν ότι είναι γυναίκα. Αποκλείεται άνδρας να σκεφτεί να μιλήσει έτσι για τους άνδρες. Είχε πάρα πολύ γυναικείο τρόπο γραφής. Και το σοκ ήταν μεγάλο όταν τελικά συνειδητοποιήσαμε ότι η Φεράντε ήταν άνδρας. Και μάλιστα ο αλγόριθμος έδειξε 96% ακρίβεια. Πέραν από την τεχνιτή νοημοσύνη χρησιμοποιήθηκε μια πιο εξελιγμένη μέθοδος η πολυπαραγοντική στατιστική. Στο διάγραμμα παρατηρούμε όλες τις γυναίκες μαζί και μια Φεράντε στην άκρη. Και αν μπορούσε να βγει από το πλαίσιο θα είχε βγει. Το υφομετρικό προφίλ δεν έχει καμία σχέση με γυναικείο τρόπο γραφής. Και γιατί; Γιατί όταν διάβαζα τα βιβλία έβλεπα γυναικεία αισθήματα όμως δεν είχαμε μετρήσει λέξεις. Και όταν έγινε μας έστειλαν κάπου εντελώς διαφορετικά.

Στην ανάλυση της περιοχής η Φεράντε, φάνηκε να είναι με ακρίβεια 98% από την Καμπανία, μειώθηκε και άλλο το δείγμα. Μόνο έξι άνδρες συγγραφείς από την Καμπανία υπήρχαν. Καναμε το απονενοημένο για την πόλη καταγωγής το οποίο δούλεψε, ανατριχιαστικά καλά, πήγε 94% και έβγαλε από το Σαμπιάνο,. Από το οποίο είναι μόνο ο Σταρνόνε. Και για μα σιγουρευτούμε φτιάξαμε και ένα προφίλ ηλικίας, το οποίο μου έδειξε ότι Φεραντε είναι πάνω από 60 και μόνο τρεις συγγραφείς πάνω από 60 και ο Σταρνόνε είναι ένας από αυτούς.

Σε μια άλλη ανάλυση cluster analysis βλέπουμε ότι η Φεράντε, είναι «αγκαλιασμένη» με τον Ντομένικο Σταρνόνε στα κείμενα τους. Και οι έξι επιστήμονες που δουλέψαμε στην υπόθεση Φεράντε είμαστε πεπεισμένοι ότι η Φεράντε είναι ο Σταρνόνε. Αυτό που έχει ενδιαφέρον στον υφομετρικό χάρτη, είναι ότι όσο περνούν τα χρόνια, ο Σταρνόνε από το 1987 μετακινείται, 1987,1989,1991 και μπαίνει μέσα στη Φεράντε. Αυτή η ατομικότητα που είχε ως συγγραφέας εξαφανίστηκε και ταυτίστηκε με τη Φεράντε. Και σήμερα Φεράντε και Σταρνόνε είναι το ίδιο πρόσωπο. Δεν μπορεί πια ο αλγόριθμος να τους ξεχωρίσει. Είναι ένα».

Λογοκλοπή, wiki vandalism και ένας φόνος που παρουσιάστηκε ως αυτοκτονία

Η Υφομετρία είναι μια ολοένα εξελισσόμενη επιστήμη που έχει να κάνει με την ποσοτική ανάλυση της γλωσσικής παραγωγής. Σε αντίθεση με τους φιλόλογους που όπως λέει ο κ. Μικρός «κάνουν close reading στο κείμενο, οι υφομέτρες το μετράνε. Δεν ασχολούνται με το τι λέει το κείμενο. Αλλά η μέτρηση και η στατιστική δομή της συχνότητας των λέξεων έχει πολύ ενδιαφέρουσες κανονικότητες και αποκαλύπτει για το κείμενο το κειμενικό γένος και τον συντάκτη του κειμένου.

Απασχολούν οι συχνά παραμελημένες λέξεις. Οι μικρές, συχνές και ασήμαντες. Οι λεγόμενες λειτουργικές λέξεις. Όπως τα άρθρα, οι σύνδεσμοι, οι προθέσεις, τα επιφωνήματα. Πολύ μικρές λέξεις η λεγόμενη συντακτική κόλλα. Που από μόνες τους δεν έχουν σημασία αλλά έναν τεράστιο συντακτικό ρόλο. Ο συγγραφέας δεν τις ελέγχει. Είναι κομμάτια της γλωσσικής συμπεριφοράς τα οποία τρέχουν στο υποσυνείδητο. Και αυτή η υποσυνείδητη συμπεριφορά συνδέεται με την ταυτότητα μας. Και σε κάθε ομιλητή είναι διαφορετικό το αποτύπωμα αυτών των λέξεων.

Ο καθένας χρησιμοποιεί τα ίδια γλωσσικά στοιχεία αλλά με διαφορετικές συχνότητες οι οποίες είναι σταθερές στη δική του ομιλία στη δική του γραφή. Ιδιόλεκτος. Ο ιδιοσυγκρασιακός τρόπος με τον οποίο ο καθένας από εμάς γράφει» εξηγεί ο κ. Μικρός και προσθέτει ότι μέσα από την έρευνα οι επιστήμονες ποσοτικοποιούν την ιδιόλεκτο και τη συνδέουν αμφιμονοσήμαντα με τον συγγραφέα. Κάθε φορά που εξετάζουν ένα κείμενο να τους παραπέμπει σε έναν συγγραφέα και κάθε φορά που εξετάζουν ένα συγγραφέα να τους παραπέμπει στο κείμενο.

Μια σύνδεση σταθερή και αμφίπλευρη. Μάλιστα, όπως λέει μελετούν το Author Profile και μπορούν να βρουν φύλο συγγραφέα, ηλικία του , χαρακτηριστικά της προσωπικότητας του, ακόμα και τη μητρική του γλώσσα. Δηλαδή αν είναι Αμερικανός ή γράφει ελληνικά μπορούν να συνειδητοποιήσουν αν τα ελληνικά έχουν αγγλική καταβολή. Γιατί η μητρική γλώσσα πάντα ασκεί πιέσεις στην ξένη γλώσσα και αυτό αποτυπώνεται στις υφομετρικές αποκλίσεις. Το Author profile είναι πολύ σημαντικό και γίνεται και ολοένα πιο σημαντικό γιατί εκτός από δικαστικές και εγκληματολογικές εφαρμογές έχει και άλλες όπως στα social media.

‘Ένα άλλο χαρακτηριστικό έχει να κάνει με τον λεξικό πλούτο. «Τι λέξεις χρησιμοποιούμε. Πόσο μεγάλες είναι οι προτάσεις. Τη συχνότητα των μερών του λόγου, πόσα ουσιαστικά, πόσα ρήματα, ο λόγος επιθέτων, ουσιαστικών. Αυτό έπι παραδείγματι παραπέμπει στο αν ο συντάκτης είναι άνδρας η γυναίκα. Οι γυναίκες χρησιμοποιούν πολύ περισσότερα επίθετα από τους άνδρες ή τα emoticons, Σε μια άλλη έρευνα που έκανα στο twitter, τα emoticons δείχνουν αν ο συντάκτης είναι γυναίκα ή άνδρας με ακρίβεια 100 προς 1. Δηλαδή μόνο από την καταμέτρηση των emoticons καταλαβαίνεις αν το tweet είναι γυναικείο ή ανδρικό» επισημαίνει ο Δρ. Μικρός.

Στις επόμενες γραμμές ο καθηγητής αναφέρεται σε περιπτώσεις όπου η που η υφομετρία ετέθη στην υπηρεσία της εγκληματολογίας αλλά και περιπτώσεις wiki vandalism και λογοκλοπής. «Στην Αυστραλία ένα ορθογραφικό λάθος, πριν 20 χρόνια, σε ένα γράμμα αυτοκτονίας δίπλα στη νεκρή γυναίκα, οδήγησε στην ταυτότητα του πραγματικού συγγραφέα και την αποκάλυψη του ενόχου. Γιατί η γυναίκα ήταν Αυστραλή και όλες οι λέξεις ήταν γραμμένες με ορθογραφία βρετανική. Εντελώς τυχαία, ο σύζυγος της ήταν Βρετανός» εξηγεί ο κ. Μικρος και σπεύδει να αναφερθεί και στη διαβόητη περίπτωση Παβαρότι.

«Στην περίπτωση Παβαρότι, μετά το θάνατο μπήκε καποιος στο Wikipedia άλλαξε βασικές πληροφορίες και επί τρεις ημέρες όλα τα ειδησεογραφικά πρακτορεία του κόσμου έδιναν λανθασμένες πληροφορίες για τον Παβαρότι. Από την ημερομηνία γέννησης μέχρι τον τόπο κατοικίας. Κάποιος παρενέβη και άλλαξε ριζικά τα δεδομένα του προφίλ». Η υφομετρία σε συνδυασμό με την τεχνητή νοημοσύνη μπορεί να επιφέρει εντυπωσιακά αποτελέσματα στην επιστημονική έρευνα. «Διδάσκουμε» μηχανές να «μαθαίνουν» χρησιμοποιώντας τις αναλογίες που συναντώνται στον φυσικό μας κόσμο. Τους εκθέτουμε σε μεγάλες ποσότητες δεδομένων και τους αφήνουμε να ανακαλύψουν ουσιαστικά μοτίβα.

Οι υπολογιστές μπορούν να βρουν συσχετισμούς μέσα σε σύνολα δεδομένων χρησιμοποιώντας αλγόριθμους που προσεγγίζουν τις φυσικές ανθρώπινες μαθησιακές διαδικασίες» αναφέρει ο καθηγητής Μικρός εξηγώντας ότι η έρευνα έχει προχωρήσει σε τέτοιο βαθμό που οι επιστημονικές ομάδες έχουν τη δυνατότητα επί παραδείγματι αν κάποιος πάρει ένα γράμμα απειλητικό για τη ζωή του και είναι σίγουρος ότι το έχει γράψει είτε ο Α είτε ο Β, μπορεί μέσα από την υφομετρική ανάλυση να διαπιστώσει με σημαντική ακρίβεια, ανάμεσα στα δύο πρόσωπα, ποιος είναι ο πραγματικός συγγραφέας.

Φως στις ανώνυμες μεταφράσεις του Παπαδιαμάντη

Στο μικροσκόπιο της υφομετρικής έρευνας έχει μπει η αρχαία ελληνική γραμματεία σε ένα διευρυμένο δίκτυο που περιλαμβάνει έργα του Αριστοφάνη, Σοφοκλή, Ευρυπίδη, Αισχύλου, Ομήρου, Ησιόδου και η λατινική γραμματεία. Από τα πρώτα κείμενα μέχρι το μεσαιωνικό Latino Volgare όπου ανοίγει το υφολογικό αποτύπωμα γιατί η γλώσσα εξελίσσεται. Όμως ιδιαίτερο ενδιαφέρον παρουσιάζει το πεδιο Παπαδιαμάντη.

«Ο Παπαδιαμάντης υπήρξε και δημοσιογράφος και πραγματοποιούσε μεταφράσεις οι οποίες ήταν ανώνυμες. Η επιστημονική μέθοδος που εφαρμόστηκε σε μια σειρά ανώνυμων Παπαδιαμαντικών μεταφράσεων οδήγησε σε ακρίβεια 99.8%.αναγνώρισης των ανυπόγραφων μεταφράσεων Παπαδιαμάντη Ο αλγόριθμος έγινε expert στον Παπαδιαμάντη. Κατάλαβε τι είναι μια μετάφραση του Παπαδιαμάντη, ανά αυτόγραφο έργο και τι δεν είναι Παπαδιαμάντης. Και δεν το πιστοποίησε μόνο ο αλγόριθμος αλλά και οι φιλόλογοι που δουλεύουν πάνω στον Παπαδιαμάντη. Αντίστοιχα πειράματα έχουν γίνει και με μεγάλους Ρώσους συγγραφείς» αναφέρει ο κ. Μικρός.

https://www.protothema.gr/greece/article/1116008/dr-giorgos-mikros-o-korufaios-ellinas-glossologos-pou-apokodikopoiei-ta-mustiria-ton-lexeon/

Δημοσίευση σχολίου

Καλοδεχούμενα όλα τα σχόλια, επώνυμα και ανώνυμα. Πάντα όμως με σεβασμό στους άλλους αναγνώστες και στους νόμους. Ευχαριστούμε!

 
Top