Eine Frau sitzt am Flügel
©Peter Badge; Getty Images / sot

Informatik Das ist Haydn. Ganz sicher!

Auch wenn sie ein bestimmtes Stück noch nie gehört haben, erkennen viele Musikliebhaber sofort den Komponisten. Diese intuitiven Fähigkeiten hat ein Computer noch nicht. Immerhin: Bei der Unterscheidung musikalischer Epochen ist er schon recht gut

von Dr. Christof Weiß

Ute Weber hört leidenschaftlich gerne klassische Musik. Sie liebt vor allem Orchester­werke. Kürzlich besuchte sie jedoch einen Klavier­abend. Als der Pianist am Ende die Zugabe anstimmte, wusste Ute Weber zunächst nicht, von wem das Stück stammte. Sie hatte es noch nie gehört, war aber schon nach wenigen Takten über­zeugt, dass es von Joseph Haydn sein musste. „Das könnte doch auch von Mozart gewesen sein“, sagte ihr Mann später. Aber Ute Weber war sich sicher – auch wenn sie nicht sagen konnte, woran sie den Komponisten erkannt hatte. Mit ihrer Fähig­keit, die musikalische Stil­istik zu erfassen und zuzuordnen, ist Frau Weber nicht allein. Viele musika­lische Laien entwickeln über Jahre hin­weg ein Ohr für solche Fein­heiten. Dabei können sie meist keine rationalen Gründe angeben. Denn sie erkennen den Komponisten eines unbekannten Stückes intuitiv, und nicht durch systematisches Analysieren des Noten­textes.

Wir wollten wissen, ob sich diese intuitiven Fähigkeiten auch einem Computer bei­bringen lassen. Er sollte also lernen, Auf­nahmen verschiedener Musik­stile zu unter­scheiden. Dabei fingen wir mit einer vergleichs­weise leichten Aufgabe an – der Unter­scheidung der vier Epochen Barock, Klassik, Romantik und Moderne.

Eine Herausforderung ist dabei, dass sich auch Stücke einer Epoche stark voneinander unter­scheiden. Sie haben ganz unter­schiedliche Melodien, Takt­arten, Tempi und Ton­arten. Trotz dieser Unter­schiede gibt es stilistische Gemeinsam­keiten, die sich nur schwer in Worte fassen lassen. Der Computer muss also in der Lage sein, generelle Prinzipien des Musik­stils zu erfassen – und diese Prinzipien auf neue Stücke zu über­tragen. So wie Ute Weber. Eine solche „Transfer­leistung“ betrifft bei­spiels­weise die Besetzung des Stückes. Frau Weber mag vor allem die Orchester­werke Haydns. Sie erkannte dessen musikalische Hand­schrift aber auch in jenem Klavier­stück. Für einen Computer ist diese Transfer­leistung schwierig, weil der Klang eines Orchesters sich deutlich von dem eines Flügels unter­scheidet.

Christof Weiß arbeitet am Computer mit einem alten Beethoven-Notenheft.
©Ingo Knopf
Christof Weiß analysierte zunächst über hundert verschiedene Merkmale einer Musik­aufnahme und speiste den Algo­rithmus dann mit über 1000 Trainings­beispielen. Auf diese Weise lernte der Computer, bestimmte Eigen­schaften mit dem jeweiligen Musik­stil zu verknüpfen.

Damit unser Algorithmus diese Flexibilität erlernt, beruht unser Ansatz auf den harmonischen Eigen­schaften der Musik­stücke, die von den Ton­höhen und Akkorden sowie deren Beziehungen unter­einander bestimmt sind. Um Musik­­auf­­nahmen hinsichtlich dieser Eigen­schaften zu vermessen, sind Techniken der digitalen Signal­verarbeitung nötig.

Dabei teilt der Algorithmus die Aufnahme zunächst in zeitliche Abschnitte von etwa einer Zehntel­sekunde Dauer und misst dafür jeweils die dominanten Frequenzen. Dieses Vor­gehen heißt auch Spektral­­analyse und ähnelt der Zerlegung des weißen Lichts in seine Spektral­farben. Die gemessenen Frequenzen werden dann musikalischen Ton­höhen zugeordnet. Zum Beispiel hat der Kammer­ton a, auf den Orchester­musiker ihre Instrumente stimmen, eine Grund­frequenz von etwa 440 Hertz (Schwingungen pro Sekunde).

Damit die Spektralanalyse unabhängiger von der instrumentellen Besetzung ist, werden im nächsten Schritt alle Ton­höhen mit dem Namen c – un­ab­hängig von ihrer Lage (Oktave) – zusammen­gefasst. Das­selbe geschieht mit den Ton­höhen cis oder des, allen mit Namen d und so fort. Insgesamt gibt es zwölf dieser „Ton­höhen­klassen“, deren jeweilige Energie der Algo­rithmus für jeden Abschnitt errechnet.

Auf dieser Grundlage werden nun harmonische Eigen­schaften gemessen. Anhand der Verteilung der Energie auf die zwölf Ton­höhen­klassen lässt sich bei­spiels­weise die Komplexität der Harmonik abschätzen. Die Komponisten der Klassik, wie etwa Haydn, konzentrierten sich meist auf wenige Ton­höhen­klassen, die zur Ton­art des Stückes passen. Ihre Musik ist somit weniger komplex als die des 20. Jahr­hunderts (Moderne). So sind die Ton­­höhen­­klassen in der so genannten Zwölf­ton­musik alle ungefähr gleich präsent. Analysiert man den Verlauf der harmonischen Komplexität über die letzten 300 Jahre Musik­geschichte, zeigt sich um das Jahr 1900 ein sprung­hafter Anstieg, der mit dem Auf­kommen solcher modernen Stile erklärt werden kann.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Messbar sind auch die Häufigkeiten bestimmter Zusammen­klänge. Hier kommt eine weitere Transfer­­leistung ins Spiel: Für Ute Weber spielt es nämlich keine Rolle, in welcher Ton­art das Haydn-Stück steht, um die Hand­schrift des Komponisten zu erkennen. Wichtig sind lediglich die Beziehungen zwischen den Ton­höhen. Damit auch unser Algo­rithmus den Musik­stil unabhängig von der Ton­art erkennen kann, erfassen wir nur die Abstände zwischen den Ton­höhen.

Alles in allem analysieren wir auf diese Weise über hundert verschiedene Merkmale einer Musik­auf­nahme. Von diesen Merkmalen auf den Musik­stil zu schließen, ist eine überaus komplexe Aufgabe. Um diese zu bewältigen, braucht der Computer Erfahrung. Er muss – wie Ute Weber – hören, hören, hören. Wir fütterten ihn daher zunächst mit mehr als tausend „Trainings­bei­spielen“, die ihm halfen, bestimmte harmonische Eigen­schaften mit dem jeweiligen Musik­stil zu verknüpfen. Für das Training berücksichtigten wir Klavier- und Orchester­stücke von verschiedenen Komponisten in unter­schiedlichen Ton­arten, Tempi und Takt­arten, damit der Algo­rithmus am Ende die gewünschten Transfer­­leistungen erbringen kann.

Wie gut funktioniert nun unser Algo­rithmus? Das testeten wir an etwa 500 neuen Stücken. Das Ergebnis: Etwa drei Viertel dieser Stücke wurden der richtigen Epoche zugeordnet.

Allerdings sind solche Ergebnisse mitunter mit Vorsicht zu genießen. Ist beispiels­weise auf einer Trainings-CD mit Barock­musik das typische Hinter­grund­rauschen einer alten, unbearbeiteten Original­auf­nahme zu hören, kann der Algo­rithmus dieses Rauschen als Merkmal dieser Epoche verstehen. Der Algo­rithmus erkennt die Barock­stücke von dieser CD womöglich am Rauschen, hat also keine generellen Eigen­schaften des Musik­stils gelernt. Barock­stücke ohne Rauschen ordnet dieser Algo­rithmus dann falsch zu.

Solche Probleme treten besonders bei bestehenden Technologien auf, die für die Unter­scheidung von Pop-, Rock- und Jazz-Auf­nahmen verwendet werden. Diese Algo­rithmen erfassen vor allem die Klang­farbe, auf die sich das Rauschen stark auswirken kann. Unser Algo­rithmus lässt sich jedoch kaum davon verwirren. Sogar eine besonders schwierige Transfer­leistung klappt damit einiger­maßen gut: Trainiert man den Algo­rithmus nur auf Klavier­musik kann er auch Orchester­stücke noch gut einordnen. Die harmonischen Merkmale bilden also eine gute Grund­lage für die Stil­erkennung.

An der Erkennung einzelner Komponisten muss jedoch noch gearbeitet werden. Bei einer Unter­scheidung von insgesamt elf Komponisten erreichten wir in ersten Tests eine Treffer­quote von etwa 40 Prozent. Es wird also noch eine Weile dauern, bis der Algo­rithmus Ute Weber schlagen kann. Doch auch die gröbere Zuordnung zu musikalischen Epochen kann über­aus nützlich sein. Denn wenn Frau Weber sich im Internet Musik von Joseph Haydn herunter­lädt, stöbert sie gerne in der Liste mit Auf­nahmen, die andere Haydn-Lieb­haber eben­falls kauften. Natürlich findet sie hier nur die populären, von vielen Leuten gehörten Werke. Würde diese Liste von einem Algo­rithmus wie dem unseren erstellt, erhielte sie auch Stücke von Komponisten, die weithin unbekannt sind. Ute Weber könnte viel Neues entdecken.

Verplappert

Unser Gehirn beeindruckt mit seiner Fähig­­keit, akustische Signale zu verarbeiten. Auch das können Computer lernen – zur Freude der Polizei

Ein Spaziergang durch die Stadt. In den Cafés entspanntes Geplauder. Auf der Bau­stelle ruft der eine dem anderen etwas zu, wegen des Lärms kaum zu verstehen. Eine Straßen­bahn quietscht um die Ecke, an der Kreuzung hupt jemand genervt. In der Hecke schnattert eine Spatzen­­familie. Fast nirgends ist Stille, unser Trommel­fell schickt Signale ans Hirn, sobald es sich um einen Millionstel Milli­meter bewegt.

Denn wenn wir etwas hören, passiert zunächst nichts anderes: Die Schall­quelle setzt die Luft in Bewegung. Es kommt zu winzigen Luft­druck­veränderungen, die sich fort­pflanzen und auf unser Trommel­fell treffen. Diese 1-Cent-Stück-große Membran ist über ein filigranes System aus Knöchelchen und Innenohr mit unserem Gehirn verbunden. Erst dort wird aus dem Auf und Ab des Luft­drucks ein Geräusch, dass wir ein­deutig zuordnen können: der Lärm eines Press­luft­hammers oder ein Stück von Bach. Signal­verarbeitung par excellence.

Was unser Gehirn mühelos meistert, ist für Computer­programme eine ungemein große Heraus­forderung. Denn zur Analyse der Luft­druck­schwankungen müssen sie pro Sekunde eines Audio­signals etwa 40 000 Zahlen­werte verarbeiten. Diese gilt es mit den Werkzeugen der digitalen Signal­verarbeitung so zu bearbeiten, dass sie möglichst präzise Informationen liefern.

Eindrucksvolle Erfolge erzielen dabei beispiels­weise die Spezialisten der Kriminal­polizei. Wenn es um die Identifizierung eines Erpressers geht, können die forensischen Phonetiker nicht nur einzelne Laute einer Band­auf­nahme mit der Stimme des Verdächtigen abgleichen. Die Algo­rithmen sind auch in der Lage, typische Betonungen, das Timbre einer Stimme, den Dialekt oder die Sprech­melodie zu unter­scheiden – unter Umständen besser als wir Menschen. Dafür reicht meist eine Vergleichs­auf­nahme von gerade einmal 30 Sekunden. 

von Joachim Schüring

Ein forensischer Phonetiker bei der Arbeit.
©ullstein bild / imagebroker
Ein forensischer Phonetiker bei der Arbeit.
Sie verwenden einen veralteten Browser oder haben Javascript in Ihrem Browser deaktiviert.
Bitte aktualisieren Sie Ihren Browser oder aktivieren Sie Javascript.
x