Δυσκολεύονται οι άνθρωποι να ξεχωρίσουν τις φωνές AI από τις πραγματικές

Δυσκολεύονται οι άνθρωποι να ξεχωρίσουν τις φωνές AI από τις πραγματικές

Τί αποκαλύπτει η έρευνα

Οι περισσότεροι έχουμε συνηθίσει τις φωνές ψηφιακών βοηθών όπως η Siri και η Alexa, που ξεχωρίζουν από τον μηχανικό, επίπεδο τόνο τους. Ωστόσο, νέα επιστημονική μελέτη αποκαλύπτει ότι η τεχνολογία έχει προχωρήσει τόσο, που οι φωνές που παράγονται από τεχνητή νοημοσύνη είναι πλέον τόσο ρεαλιστικές, ώστε ο μέσος ακροατής αδυνατεί να τις διακρίνει από τις φυσικές ανθρώπινες φωνές.

Σύμφωνα με τη μελέτη που δημοσιεύθηκε στο επιστημονικό περιοδικό PLoS One, οι συμμετέχοντες δεν μπορούσαν με ακρίβεια να εντοπίσουν ποιες φωνές ήταν αυθεντικές και ποιες είχαν παραχθεί μέσω ΑΙ, όταν τους παρουσιάστηκαν δείγματα από αμφότερες τις κατηγορίες.

«Ήταν αναμενόμενο ότι αργά ή γρήγορα η τεχνητή νοημοσύνη θα κατάφερνε να δημιουργεί φωνές που μοιάζουν απολύτως φυσικές», ανέφερε η επικεφαλής της έρευνας, δρ Nadine Lavan, από το Πανεπιστήμιο Queen Mary του Λονδίνου.

Η μελέτη έδειξε ότι ενώ οι τεχνητές φωνές που δημιουργούνται από το μηδέν δεν ήταν τόσο πειστικές, οι φωνές που είχαν "κλωνοποιηθεί" από πραγματικούς ανθρώπους – γνωστές ως deepfake audio – ήταν σχεδόν αδύνατο να διακριθούν από τις γνήσιες.

Οι αριθμοί λένε την αλήθεια

Στο πείραμα, οι συμμετέχοντες άκουσαν 80 δείγματα ήχου – 40 από πραγματικές φωνές και 40 από ΑΙ. Όταν κλήθηκαν να αναγνωρίσουν τις τεχνητές, μόνο το 41% των "δημιουργημένων από το μηδέν" φωνών θεωρήθηκαν – εσφαλμένα – ως ανθρώπινες. Ωστόσο, όταν επρόκειτο για "κλωνοποιημένες" φωνές βασισμένες σε πραγματικούς ανθρώπους, το ποσοστό λάθους ανέβηκε στο 58%.

Ακόμη και οι αυθεντικές φωνές αναγνωρίστηκαν σωστά μόνο στο 62% των περιπτώσεων, γεγονός που δείχνει ότι η ικανότητά μας να ξεχωρίζουμε το ψεύτικο από το αληθινό έχει περιοριστεί σημαντικά.

Τεράστιες οι επιπτώσεις – Προσιτή η τεχνολογία

Οι ειδικοί τονίζουν ότι οι συνέπειες αυτής της τεχνολογικής προόδου δεν είναι αμελητέες. Με τόσο ρεαλιστικές φωνές, εγκληματίες θα μπορούσαν να πλαστογραφήσουν τη φωνή κάποιου και να ξεγελάσουν τραπεζικά συστήματα ασφαλείας που βασίζονται στην αναγνώριση φωνής ή να εξαπατήσουν συγγενείς και φίλους ζητώντας χρήματα.

Επιπλέον, υπάρχει σοβαρός κίνδυνος για παραπληροφόρηση, καθώς με τη χρήση deepfake audio μπορούν να κατασκευαστούν ψευδείς δηλώσεις από πολιτικούς, διασημότητες ή δημόσια πρόσωπα, με στόχο τη δυσφήμιση ή την υποκίνηση κοινωνικής έντασης.

Το πιο ανησυχητικό είναι ότι για την παραγωγή αυτών των φωνών δεν χρειάζεται προηγμένη τεχνογνωσία. Οι ερευνητές χρησιμοποίησαν λογισμικό που είναι διαθέσιμο στο εμπόριο και εκπαίδευσαν τα μοντέλα με μόλις τέσσερα λεπτά ηχογραφήσεων. «Η διαδικασία ήταν απλή, γρήγορη και φθηνή», σχολίασε η δρ Lavan, υπογραμμίζοντας πόσο εύκολη έχει γίνει πλέον η πρόσβαση σε τέτοια τεχνολογία.

Πηγή: Sigmalive