Το MusicLM της Google φαινόταν πολλά υποσχόμενο με την ικανότητά του να δημιουργεί μουσική από μηνύματα κειμένου. Αλλά μετά τη δοκιμή, δεν απέδωσε.
Τον Ιανουάριο του 2023, η Google ανακοίνωσε το MusicLM, ένα πειραματικό εργαλείο AI που θα μπορούσε να δημιουργήσει μουσική με βάση περιγραφές κειμένου. Παράλληλα με τις ειδήσεις, η Google κυκλοφόρησε μια εκπληκτική ερευνητική εργασία για το MusicLM που άφησε πολλούς ανθρώπους έκθαμβους με την ικανότητα να δημιουργούν μουσική από τον αέρα.
Έχοντας μια προτροπή κειμένου, το μοντέλο υποσχέθηκε να παράγει μουσική υψηλής πιστότητας που θα παρείχε κάθε είδους περιγραφές από είδος σε όργανο έως αφηρημένες λεζάντες που περιγράφουν διάσημα έργα τέχνης. Τώρα που το MusicLM είναι ανοιχτό στο κοινό, αποφασίσαμε να το δοκιμάσουμε.
Η προσπάθεια της Google να δημιουργήσει μια γεννήτρια μουσικής AI
Η μετατροπή μιας προτροπής κειμένου, όπως η "χαλαρότατη τζαζ" σε ένα κομμάτι έτοιμο για αναπαραγωγή είναι αναμφισβήτητα το ιερό δισκοπότηρο των πειραμάτων στη μουσική AI. Παρόμοια με τις διάσημες συσκευές δημιουργίας εικόνων τεχνητής νοημοσύνης όπως το Dall-E ή το Midjourney, δεν χρειάζεται να έχετε λίγη μουσική τεχνογνωσία για να δημιουργήσετε ένα κομμάτι που έχει μελωδία και ρυθμό.
Τον Μάιο του 2023, όσοι εγγράφηκαν στο AI Test Kitchen της Google θα μπορούσαν να δοκιμάσουν το demo για πρώτη φορά. Χαιρετίζεται από μια φιλική προς το χρήστη ιστοσελίδα και μερικούς κατευθυντήριους κανόνες—ηλεκτρονικούς και κλασικούς τα όργανα λειτουργούν καλύτερα και μην ξεχάσετε να προσδιορίσετε ένα "vibe"—η παραγωγή ενός αποσπάσματος μουσικής είναι αφάνταστα εύκολο.
Η ταχύτητα είναι ένα από τα λίγα πράγματα που το MusicLM προσφέρει πραγματικά, μαζί με δείγματα σχετικά υψηλής πιστότητας. Ωστόσο, το αληθινό τεστ δεν έπρεπε να μετρηθεί μόνο με χρονόμετρο. Μπορεί η MusicLM να παράγει αληθινή μουσική που ακούγεται βασισμένη σε λίγες λέξεις; Όχι ακριβώς (θα φτάσουμε σε αυτό σύντομα).
Πώς να χρησιμοποιήσετε το MusicLM στην Κουζίνα δοκιμής AI της Google
Η χρήση του MusicLM είναι εύκολη, μπορείτε να εγγραφείτε στη λίστα αναμονής Κουζίνα δοκιμής AI της Google αν θέλετε να το δώσετε.
Στην εφαρμογή Ιστού, θα δείτε ένα πλαίσιο κειμένου όπου μπορείτε να συνθέσετε μια προτροπή από λίγες λέξεις έως μερικές προτάσεις που να περιγράφουν το είδος της μουσικής που θέλετε να ακούσετε. Για καλύτερα αποτελέσματα, η Google σας συμβουλεύει να «είσαι πολύ περιγραφικός», προσθέτοντας ότι θα πρέπει να προσπαθήσετε να συμπεριλάβετε τη διάθεση και το συναίσθημα της μουσικής.
Όταν είστε έτοιμοι, πατήστε enter για να ξεκινήσει η επεξεργασία. Μέσα σε περίπου 30 δευτερόλεπτα, δύο αποσπάσματα ήχου θα είναι διαθέσιμα για ακρόαση. Από τα δύο, έχετε την επιλογή να απονείμετε ένα τρόπαιο στο καλύτερο δείγμα που ταιριάζει με την προτροπή σας, κάτι που με τη σειρά του βοηθά την Google να εκπαιδεύσει το μοντέλο και να βελτιώσει την απόδοσή του.
Πώς ακούγεται το MusicLM
Οι άνθρωποι φτιάχνουν μουσική από τουλάχιστον 40.000 χρόνια πριν, χωρίς να έχουν οριστική ιδέα εάν η μουσική ήρθε πριν, μετά ή ταυτόχρονα με την ανάπτυξη της γλώσσας. Έτσι, κατά κάποιο τρόπο, δεν προκαλεί έκπληξη το γεγονός ότι η MusicLM δεν έχει σπάσει αρκετά τον κώδικα αυτής της αρχαίας καθολικής τέχνης.
Ερευνητικό έγγραφο MusicLM της Google πρότεινε ότι το MusicLM θα μπορούσε να δημιουργήσει μουσική από λεζάντες που ανήκουν σε διάσημα έργα τέχνης και να ακολουθήσει οδηγίες όπως η αλλαγή του είδους ή της διάθεσης με ομαλό τρόπο ακολουθώντας μια σειρά διαφορετικών προτρέπει.
Ωστόσο, πριν φτάσουμε σε τέτοιες υψηλές παραγγελίες, διαπιστώσαμε ότι η MusicLM είχε πολλά θεμελιώδη προβλήματα να ξεπεράσει πρώτα.
Δυσκολία προσκόλλησης στον ρυθμό
Η πιο βασική δουλειά κάθε μουσικού είναι απλά να παίζει έγκαιρα. Με άλλα λόγια, μείνετε στο ρυθμό. Παραδόξως, αυτό δεν είναι κάτι που η MusicLM μπορεί να κάνει στο 100% των περιπτώσεων.
Στην πραγματικότητα, χρησιμοποιώντας την ίδια προτροπή 10 φορές, η οποία παράγει 20 μουσικά κομμάτια, μόνο τρεις ήταν εγκαίρως. Τα υπόλοιπα 17 δείγματα ήταν ταχύτερα ή πιο αργά από το καθορισμένο τέμπο που γράφτηκε σε "beats per minute", όρος που χρησιμοποιείται ευρέως για να περιγράψει τη μουσική.
Σε αυτό το παράδειγμα, χρησιμοποιήσαμε την προτροπή "σόλο κλασικό πιάνο που παίζεται με 80 χτύπους ανά λεπτό, ειρηνικό και διαλογιστικό". Σε πιο προσεκτική ακρόαση, η μουσική συχνά επιταχύνθηκε ή επιβραδύνθηκε εντός του μικρού μήκους του δείγματος.
Η μουσική δεν είχε επίσης δυνατό ρυθμό και ακουγόταν σαν κάποιος να είχε χτυπήσει το play στη μέση του κομματιού. Είτε αυτό ήταν σκόπιμα είτε όχι, είναι δύσκολο να κρίνουμε εάν το MusicLM μπορεί πραγματικά να συνθέσει μια σωστή αρχή ή τέλος σε ένα μουσικό κομμάτι εκτός από το να μένει σταθερός στον ρυθμό.
Τυχαία επιλογή οργάνου
Ίσως η MusicLM να μην είχε μάθει ακόμα πώς να παίζει σε αυστηρό συγχρονισμό, οπότε προχωρήσαμε σε μια άλλη κοινή μουσική παράμετρο. Θέλαμε να δούμε αν θα ικανοποιούσε το αίτημά μας για ορισμένα μέσα.
Γράψαμε πολλά διαφορετικά μηνύματα που περιελάμβαναν περιγραφές όπως "Solo synthesizer" και "Solo bass guitar". Άλλα ήταν μεγαλύτερα σύνολα όπως το "Κουαρτέτο εγχόρδων" ή το "Τζαζ συγκρότημα". Σε γενικές γραμμές, φαινόταν σαν μια πιθανότητα 50:50 να πάρετε αυτό που ζητήσατε.
Μια θεωρία είναι ότι το μοντέλο συσχετίζει ορισμένα όργανα με δημοφιλή μουσικά είδη. Πάρτε, για παράδειγμα, την προτροπή "Solo synthesizer, chord progression. Ζωντανή και αισιόδοξη». Αντί να έχει έναν ήχο συνθεσάιζερ από μόνος του, η MusicLM δημιούργησε ένα ηλεκτρονικό κομμάτι με τύμπανα και μπάσο.
Είναι πιθανό το μοντέλο να μην έχει αρκετά δεδομένα και αρκετή εκπαίδευση για να κατανοήσει το συγκεκριμένο αίτημα για ένα όργανο.
Τα φωνητικά είναι έξω από την εξίσωση
Σύμφωνα με τους περιορισμούς εκείνης της εποχής, το μοντέλο δεν θα έβγαζε μουσική που να περιέχει φωνητικά. Τα ακανθώδη ζητήματα πνευματικών δικαιωμάτων της MusicLM και τα φωνητικά με λάθη είναι ένας πιθανός παράγοντας γιατί η Google επέλεξε να το παίξει με ασφάλεια θέτοντας αυτόν τον περιορισμό.
Αλλά μετά από πειραματισμούς με το MusicLM για αρκετό καιρό, συνειδητοποιήσαμε ότι ο έλεγχος της Google στην παραγωγή του μοντέλου δεν ήταν ακριβώς σιδερένιος. Παραδόξως, μια προτροπή όπως "ακουστική κιθάρα" θα παρήγαγε ένα κομμάτι που περιείχε φωνητικά σαν φάντασμα στο παρασκήνιο που ακούγονταν πνιχτά και απόμακρα.
Αν και αυτό δεν είναι συνηθισμένο φαινόμενο, σας αφήνει να αναρωτιέστε για την ικανότητα της MusicLM να δημιουργεί πειστικά φωνητικά εξαρχής.
Με λογισμικό όπως το VOCALOID και το Synthesizer V να πρωτοστατούν Τεχνολογία φωνητικής σύνθεσης με τη βοήθεια AI, η παράλειψη φωνητικών από το τρέχον μοντέλο μας αφήνει να αναρωτιόμαστε αν δεν είναι ακόμα αρκετά καλό για να ανταγωνιστεί την υπάρχουσα τεχνολογία. Το MusicLM μπορεί κάλλιστα να έχει πολύ δρόμο να διανύσει προτού οι μουσικοί τραγουδήσουν τα εύσημα του.
Το μέλλον των AI Music Generators
Ενώ το MusicLM έχει προχωρήσει τη δημιουργική μουσική τεχνολογία AI, πρέπει να επιστρέψει στο σχολείο και να μάθει μερικά ακόμη πράγματα για να μπορέσει να αναλάβει πρακτική δουλειά στη μουσική βιομηχανία.
Πριν από τώρα, η καλύτερη προσπάθεια παραγωγής μουσικής AI ήταν ένα μοντέλο που ονομαζόταν JukeboxAI από την OpenAI. Δεν ήταν ακριβώς σε κατάσταση έτοιμο προς χρήση και χρειάστηκαν εννέα ώρες για να αποδοθεί μόνο ένα λεπτό μουσικής.
Για τις προσπάθειές σας, ήταν πιθανό να λάβετε πίσω ένα κομμάτι με αληθινά εξωγήινους ήχους γεμάτο παραμόρφωση ήχου και τεχνουργήματα. Από την άλλη πλευρά, δεν πρόκειται να βαρεθείς ακούγοντας τις παράξενες δημιουργίες που προκαλεί το Jukebox.
Υπό το πρίσμα αυτό, η MusicLM έχει κάνει κάποιες σημαντικές προόδους προς μια φιλική προς το χρήστη γεννήτρια μουσικής AI. Θα μπορούσαμε σχεδόν να συγχωρήσουμε το μοντέλο για τις τυχαίες εξόδους του όταν σταματήσετε να σκεφτείτε πόσο πολύπλοκο είναι να δημιουργείτε μουσική σε ακατέργαστη μορφή ήχου.
Μετά την εφαρμογή του μοντέλου, ωστόσο, η MusicLM αισθάνεται μισοψημένη σε σύγκριση με αυτό που δημοσίευσε η Google στην αρχική της ερευνητική εργασία. Σπάνια μια γεννήτρια εικόνας AI παίρνει λάθος την εικόνα μιας Apple, ομοίως μια γεννήτρια μουσικής AI θα πρέπει να έχει μερικά βασικά σωστά, όπως το ρυθμό και τα όργανα.
Το MusicLM της Google υπολείπεται των προσδοκιών
Με τις εταιρείες τεχνολογίας να αγωνίζονται για να ξεπεράσουν η μία την άλλη στο μέτωπο της τεχνητής νοημοσύνης, η MusicLM αισθάνεται σαν να μπήκε σε δημόσιες δοκιμές πριν είναι έτοιμη. Αντί να πάρει σωστά τα θεμελιώδη στοιχεία, το μοντέλο φαίνεται να ακολουθεί μια πολύ πιο ασαφή και υποκειμενική προσέγγιση στην παραγωγή μουσικής.
Η Google μπορεί να σας ενθαρρύνει να είστε συγκεκριμένοι με την προτροπή σας, αλλά δεν μπορεί να χειριστεί καλά το ρυθμό και δεν είναι εγγυημένο ότι θα λαμβάνετε τα όργανα που ζητήσατε κάθε φορά. Το MusicLM μπορεί να είναι ενδιαφέρον και μια καλή επίδειξη ισχυρών προόδων τεχνητής νοημοσύνης, αλλά αν η μουσική είναι ο τελικός στόχος, έχει ακόμη πολύ δρόμο να διανύσει.