banner
Nachrichtenzentrum
Wir bieten unschlagbare Preise ohne Abstriche bei der Qualität.

Meta AudioCraft: KI-Musikgenerator basierend auf Textaufforderungen

Aug 18, 2023

Von Todd Spangler

NY Digital Editor

Meta hat AudioCraft veröffentlicht, eine neue Reihe von KI-Tools, um das zu generieren, was der Technologieriese als „hochwertige, realistische Audio- und Musikqualität aus Text“ bezeichnet – zum Beispiel durch die Erstellung einer Musiksequenz basierend auf der Textzeichenfolge „elektronisches jamaikanisches Reggae-DJ-Set“. .“

„Stellen Sie sich vor, ein professioneller Musiker könnte neue Kompositionen erkunden, ohne eine einzige Note auf einem Instrument spielen zu müssen“, sagt Meta in einem Blogbeitrag über AudioCraft. „Oder ein Kleinunternehmer, der ganz einfach einen Soundtrack zu seiner neuesten Videoanzeige auf Instagram hinzufügt.“

AudioCraft besteht aus drei Modellen: MusicGen (für Musik), AudioGen (für Soundeffekte) und EnCodec (ein generativer KI-Decoder). Nach Angaben des Technologieriesen wurde MusicGen anhand von rund 400.000 Aufnahmen sowie Textbeschreibungen und Metadaten geschult, was 20.000 Stunden Musik entspricht, die Meta gehört oder speziell für diesen Zweck lizenziert wurde. „Musiktitel sind komplexer als Umgebungsgeräusche, und die Erzeugung kohärenter Samples auf der Langzeitstruktur ist besonders wichtig, wenn neuartige Musikstücke geschaffen werden“, sagt das Unternehmen.

„Mit noch mehr Bedienelementen glauben wir, dass sich MusicGen zu einem neuen Instrumententyp entwickeln kann – genau wie Synthesizer, als sie zum ersten Mal auf den Markt kamen“, sagte das Unternehmen in dem Blogbeitrag.

Meta hat einen Clip darüber geteilt, wie von MusicGen generierte Musik klingt. Zu den Beispielen gehören neben dem Reggae-Riff „Filmszene in der Wüste mit Percussion“, „80er-Jahre-Elektronik mit Drum-Beats“, „Jazz-Instrumental, mittleres Tempo, temperamentvolles Klavier“ und „sanfter Hip-Hop, Vinyl-Scratching, tief Bass":

Unterdessen sagte Meta, dass AudioGen auf „öffentliche Soundeffekte“ geschult wurde und Umgebungsgeräusche und Soundeffekte wie Hundegebell, hupende Autos oder Schritte auf einem Holzboden erzeugen kann. Das Unternehmen veröffentlichte außerdem eine verbesserte Version des EnCodec-Decoders, „die eine Musikgenerierung in höherer Qualität mit weniger Artefakten ermöglicht“.

Das Unternehmen veröffentlicht die AudioCraft-Modelle als Open-Source-Code und erklärt, dass das Ziel darin besteht, „Forschern und Praktikern Zugang zu gewähren, damit sie erstmals ihre eigenen Modelle mit ihren eigenen Datensätzen trainieren und dabei helfen können, den Bereich der KI-generierten Daten voranzutreiben.“ Audio und Musik.“

Meta räumte ein, dass es den zum Trainieren der AudioCraft-Modelle verwendeten Datensätzen an Vielfalt mangelt – insbesondere enthält der verwendete Musikdatensatz „einen größeren Anteil westlicher Musik“ und ist auf Audio-Text-Paare mit Text und Metadaten in englischer Sprache beschränkt. „Durch die Weitergabe des Codes für AudioCraft hoffen wir, dass andere Forscher neue Ansätze einfacher testen können, um potenzielle Verzerrungen und den Missbrauch generativer Modelle zu begrenzen oder zu beseitigen“, sagte das Unternehmen.