Menü
Avatar von Whynodd
  • Whynodd

mehr als 1000 Beiträge seit 30.03.2007

Mehr Kontext ins Netz reingeben

Ich denke nicht, dass alle rohen Samples der letzten 250ms als Eingabe für das Netz nötig sind. Für das jeweils nächste Ausgabesoundsample ist es völlig unerheblich, ob das 243ms alte Sample den Wert von 155 oder -55 hat.

Viel wichtiger ist doch der (grobere) Kontext über längere Zeit, der sicher in komprimierterer Form eingegeben und gefeedbacked werden kann. Wenn ich z.B. spreche, dann muss ich mir ja auch nicht alle Soundsamples merken. Meist hallt im Gehirn während dem Sprechen nur der eigene Tonfall als allgemeiner Eindruck von der eigenen Aussprache nach, eben komprimiert.

Man sollte es mal so versuchen, Eingabeschicht des Netzes:

Die rohen Soundsamples der letzten 1024 (oder so) Samples, also deutlich kürzer. Das sorgt für das Lernen von Tönen und Wellenformen.

Zeitlich und Anzahlig immer coarser werdende Fourierkoeffizienten (vom Spektrum), um möglichst lange Zeit abzudecken, vielleicht 10 Sekunden. Je älter, desto "nuscheliger". Hier gehts um Parameteranzahlreduktion. Das ersetzt die unnötig vielen Rohsamples von Googles Wavenet in komprimierterer Form. Hierüber bildet das Netz Wissen über den Verlauf von Silben, Wörtern, Intonation, Grundfrequenz, Lautstärke und Pausen.

Die Buchstaben der letzten 3 Sätze. Sozusagen der durchlaufende Teleprompter des Netzes. Daran orientiert sich das Netz, was überhaupt gesprochen werden soll.

Grobe Statistiken über die letzten paar Buchseiten (bei längeren Texten). Vielleicht 0-bis-1 Kennzahlen wie Wissenschaftlichkeit (einfache Sprache oder viele Fachwörter), Stimmung (gereizt, ruhig, neutral, traurig), Genre (Sprachansage, Krimi, Nachrichten, Witz, Wetterbericht, ...). Damit lernt das Netz, wie es passend zur Situation sprechen soll. Nachrichten klingen ganz anders als ein Hörbuch.

Um dem Netz ein "Gehör" zu verschaffen, wird nach jedem Erzeugungsschritt das ausgegebene Sample schieberegisterartig in die 1024-samplige Eingabe geschrieben. Ebenso wird mit den anderen Ausgaben verfahren. Beim Einlernen wird natürlich stattdessen das Lernmaterial genommen.

Ach was weiß ich schon. Wenn ich Zeit und Muße habe...

whynodd

Bewerten
- +
Anzeige