Entrauschen per FFT
#1
Motiviert durch den Thread "Frage zur Rauschunterdrückung bei TB" habe ich mal ein historisches Ton-Dokument genommen und digital einige Clicks entfernt sowie das Rauschen per FFT reduziert.
Einige Beispiele historischer Ton-Dokumente findet man auf den Seiten des "Deutschen Rundfunkarchivs" DRA
https://www.dra.de/de/bestaende/weimarer.../hoerfunk/
Als Wortaufnahme aus der Zeit der Weimarer Republik findet man da
"Der Direktor der Berliner Funkstunde Friedrich Georg Knöpfke spricht bei der Grundsteinlegung für das Haus des Rundfunks in der Berliner Masurenallee am 29.5.1929 (KONF 803778)".
Die Aufnahme enthält recht viel Rauschen, allerdings weniger als ein "Gesprochener Brief von Thomas A. Edison an Mr. Blaine. 1888 (KONF 10507)", den es unter
https://www.dra.de/de/bestaende/fruehe-toene
gibt.
Eine Download-Möglichkeit konnte ich nicht entdecken, es gelang aber unter Linux, beim Anhören die Wiedergabe mit Audacity aufzuzeichnen.
Gespeichert habe ich als mp3 mit variabler Bitrate und hoher Qualität, auf einem Windows-PC zum WAV-Format dekodiert und dann mit 2 vor vielen Jahren zu Hobby-Preisen erworbenen Programmen ("Wave Repair" und "Wave Purity") traktiert.
Das Ergebnis klingt nach meinen bescheidenen Ansprüchen ganz manierlich.
Ich hänge es als gezipten mp3-File an.

Am Edison von 1888 habe ich mich auch versucht. Das Ergebnis fällt aber nicht so gut aus. Es bleibt entweder zu viel Nebengeräusch über oder das Nutzsignal wird zu sehr beschnitten.

MfG Kai


Angehängte Dateien
.zip   GL_HdR1929_mod.mp3.zip (Größe: 855,5 KB / Downloads: 9)
Zitieren
#2
Hallo Kai,

Danke für den Link zum DRA und deine Bearbeitung von Knöpfkes Rede zur Grundsteinlegung des HdR!

Natürlich habe ich mir die Freude nicht entgehen lassen, mich mit besagten iZotope-Werkzeugen an einer eigenen Bearbeitung zu versuchen.

Die Originalaufnahme konnte ich über "Internet Download Manager" als *.ts herunterladen, der eine mp3-kodierte Audiodatei in 128 kbps Stereo und 48 kHz enthält.

Diese habe ich zunächst entknackt und entknistert und daraus eine Wave-Datei schreiben lassen, die ich in einem zweiten Schritt entrauscht und in einer zweiten Wave-Datei gespeichert habe. Dabei ist vor allem zu berücksichtigen, dass der aufgezeichnete (relativ schmale) Nutzfrequenzbereich und das Schellackrauschen unterschiedliche Frequenzgangverteilungen (Amplitudenstatistiken) aufweisen. Das muss bei einer Tonbandaufzeichung der 1960er Jahre nicht zwangsläufig so sein, entsprechend sind die einzelnen Bearbeitungsschritte anzupassen:

         

Das Original und beide Bearbeitungsstufen habe ich als *.mp3 Dateien angehängt.

Den Edison habe ich vorerst ruhen lassen.

Grüße
Peter


Angehängte Dateien
.zip   DRA Grundsteinlegung HdR.zip (Größe: 2,21 MB / Downloads: 10)
Zitieren
#3
Hallo Peter,

danke für dein Interesse.
Wie hast du die beiden Spektren gewonnen ?

Ich verwende ein eigenes Tool, das mir für den gesamten wav-File die Spitzenwerte der blockweisen FFTs ausgibt, die Rms-Werte (mittlere Leistung der FFT-bins über den File) sowie die Minima der FFT-Bins (und noch eine gemittelte Variante der Minima).
Das Spektrum der Minima kann man als Schätzung des Untergrund-Rausch/Geräusch-Spektrums verwenden, wenn es keinen Abschnitt in der Aufzeichnung gibt ohne Nutzsignal. Daran orientieren sich dann üblicherweise die Schwellwerte der FFT-Entrauscher.
Das von mir in diesem Beispiel verwendete (kommerzielle) Programm schätzt in nicht dokumentierter Weise das ?Stör?-Spektrum und leitet davon die Schwelle ab. Die kann man leider nicht weiter editieren.
Ich habe vorher ein anderes Programm mit Editier-Möglichkeit benutzt, um Edison zu entrauschen. Da man in dem Fall aber "brutaler" vorgehen muß, entstand unerfreuliches tonhaftes Nebengeräusch.
Dies "wirft" mein Programm für Edison 1888 raus:
   
Rot sind die Spitzenwerte dargestellt,
blau die Effektiv/Rms-Werte
grün die Minimal-Werte, aber um 20 dB angehoben.
(Was grau darstellt, habe ich vergessen).

In diesem Bild habe ich mit Matlab typische Asymptoten (+-)1.ter, (+-)2.ter und -1.5facher Ordnung an die spektralen Verläufe gelegt.
   
Man sieht, daß Peaks und Rms-Werte aus dem Tal bei ~100Hz mit ca. 2ter Ordnung (40 dB/Dekade) ansteigen bis knapp über 700 Hz.
Die Spitzenwerte fallen dann mit -2ter Ordnung bis knapp 5 kHz ab und springen dann sehr steil um fast 20 dB weiter in den "Keller".
Die Rms-Werte fallen eher mit -1.5ter Ordnung ab.
Das Grundgeräusch steigt von ca. 200 Hz mit ~1ter Ordnung bis ~1.7 kHz an, fällt dann mit -1ter Ordnung ab bis 3 kHz und darüber steiler (1.5...2ter Ord) und bei 5 kHz sehr steil. Darüber sieht man wohl das Grundsspektrum der moderneren Zwischenspeicherung.
Die Linien bei 5874 Hz und 11742 Hz treten nicht im ganzen File auf sondern erst ?20 s? nach Beginn. Ursache unbekannt.
Die Asymptoten (zumindest die im Bereich unter 700 Hz) könnten zur Orientierung dienen bei Versuchen, dem Nutzsignal einen "volleren" Klang zu geben.

Das dritte Bild zeigt die Spektren für hier bearbeitete Ansprache zur Grundsteinlegung des Hauses des Rundfunks 1929.
Die Bandbreite ist schon merklich größer/angenehmer als 1888 und die Verzerrungen deutlich kleiner.
Da ich bislang keine Entzerrung vorhatte, habe ich keine Auswertung mit Asymptoten erzeugt.
   

MfG Kai
Zitieren
#4
Hallo Kai,
hallo Peter,

als großer Fan der historischen Rundfunk- und Magnetbandtechnik muß ich hier sagen, daß Eure "Versuche" mit den verrauschten Aufnahmen ganz außerordentlich beeindruckend sind. Diese Ergebnisse hätte ich nicht für möglich gehalten.
Vielen Dank dafür, daß Ihr die Ergebnisse Eurer Versuche hier eingestellt habt.
Die Sache hat mich so sehr in ihren Bann gezogen, daß ich sogar zwei Rüffel der Kategorie Zwo meiner Regierung in Kauf genommen habe.

vielen Dank und
viele Grüße

Manfred
Zitieren
#5
Nun habe ich mich doch an den Edison gesetzt, der wie zu erwarten die weit größere Herausforderung darstellt. Nicht nur wegen des erheblichen höheren Rauschens, sondern auch wegen der unüberhörbaren Trichterresonanzen, fast vollkommen fehlender Konsonanten und einiger geradezu explosiv hervortretender Vokalformanten (hauptsächlich im Bereich "a" bis "ɑ"), die der Aufnahme ihr zeittypisches Kolorit verleihen, das summiert wirkt, als wäre ein Expander eingeschleift, was natürlich nicht stimmt.

Folglich sollte um des weniger anstrengenden Zuhörens und der besseren Sprachverständlichkeit willen mit einer leichten Dynamikkompression entgegengewirkt werden, die ihrerseits das vorher verminderte Rauschen wiederum etwas anhebt, d.h. dem ursprünglich erstrebten Effekt entgegenwirkt.

Aber das Originalmaterial ist nun mal so wie es ist, und solange man nicht zu künstlicher Stimmensynthese greifen möchte (was ich auch gar nicht könnte), wird man das Ergebnis in dieser oder ähnlicher Form hinnehmen müssen. Viel mehr wüsste ich jedenfalls mit meinen momentanen Mitteln nicht herauszuholen, allenfalls sind Variationen im Gesamtfrequenzgang möglich (z.B. Richtung "heller"/"dunkler").

Im Anhang nach bekannter Manier das Original mit den beiden Bearbeitungsstufen.


Angehängte Dateien
.zip   DRA Edison 1888 -0 original.zip (Größe: 2,52 MB / Downloads: 6)
.zip   DRA Edison 1888 -1 declick.zip (Größe: 2,52 MB / Downloads: 6)
.zip   DRA Edison 1888 -2 declick denoise.zip (Größe: 1,93 MB / Downloads: 7)
Zitieren
#6
Hallo Peter,
hallo Kai,
ich habe mich in der Mittagspause kurz verkrümelt und hier noch einmal nachgesehen, weil ich es nicht ausgehalten habe vor Neugier.
Es hat sich gelohnt. (Die Beule vom Nudelholz geht wieder weg, genau so, wie Bill Clintons Kittauge).

Viel Grüße
Manfred

P.S. Ich kann zu Eurer fachlichen Diskussion leider nichts beitragen. Ich kann sie nur genießen.
Zitieren
#7
Hallo Manfred,

das tut mir aber herzlich leid, daß diese dröge technische Lektüre solche unerfreulichen Nebenwirkungen auf deinen Gesundheitszustand hat.
Dann müssen ja wohlmöglich die verantwortlichen Leiter dieses Forums demnächst unsere Beiträge mit Warnungen vor negativen Begleiterscheinungen (fragen Sie Ihren Site-Administrator) garnieren.
Ein Glück, daß ich noch eine Haftpflichtversicherung habe.
Dank an Peter für den erneuten Einsatz zur Förderung des nachsichtigen Verständnisses für digitale Audio-Verarbeitung unter eingefleischten Analog-Fans.

MfG Kai
Zitieren
#8
(13.09.2021, 12:11)kaimex schrieb: danke für dein Interesse.

"Da nich für", wie man im Norden sagt. Das ist quasi täglich Brot für mich, wenn es an die Aufarbeitung hysterischer, pardon historischer Aufnahmen geht. (Ich habe das geschrieben, weil mich Knöpfkes Diktion in ihrem zeittypischen Pathos fast schon an eine Grabesrede erinnert. Wie anders dagegen wirkt auf mich die Stimme Albert Einsteins oder Arnold Schönbergs, deren Aufnahmen etwa zur selben Zeit entstanden, siehe Anhänge.)

(13.09.2021, 12:11)kaimex schrieb: Wie hast du die beiden Spektren gewonnen ?

Die hat mir meine DAW (Samplitude ProX) so geliefert. Für das Sprachspektrum habe ich einfach den lautesten und längsten Laut ("a", bei 4,7 Sekunden) als Endlosschleife laufen lassen, für das Geräuschspektrum bei 26 Sekunden dieselbe Methode angewendet, hier allerdings zusätzlich entknackt, weil dies ein notwendiger Schritt ist, damit nicht der Denoiser versehentlich die Knackser für Nutzschall hält.

Grüße
Peter


Angehängte Dateien
.zip   Albert Einstein, Eröffnungsrede zur 7. Funkausstellung Berlin, 1930-08-22 exc.zip (Größe: 660,53 KB / Downloads: 5)
.zip   Arnold Schönberg zum Rundfunkprogramm 1931-03.zip (Größe: 790,79 KB / Downloads: 4)
Zitieren
#9
Weil in einem anderen Thread vor nicht allzu langer Zeit das Zerlegen in Stems zur Sprache kam, vielleicht von Interesse:
"Unmix Stems" in "Stimme" und "alles andere" (mit SpectraLayers, noch Vers.7).
Quasi eine Annäherung von der anderen Seite. Nicht das Rauschen wird erkannt und rausgefiltert, sondern die Stimme.
3 MP3s (erstes Originalfile von Peter): Stimme, alles andere, Stimme und bisserl rosa Rauschen zur Maskierung der Artefakte.
Gruß
Lois


Angehängte Dateien
.zip   stems.zip (Größe: 2,23 MB / Downloads: 10)
Zitieren
#10
Wo kann man sich über "stems" schlau machen ?
Wer definiert "stems" ?
Steckt das Wissen in proprietärer Software oder kann man selbst definieren, was "Stimme" ist ?
Der Stimme.mp3 ist beeindruckend, wenn man so etwas ohne eigenes know-how und Arbeit "ratz-fatz" erzeugen kann.
Allerdings nehme ich deutlich Rauschfahnen und Crackle um die Stimm-Segmente wahr.

Ich habe da eben so circa drei Audio-Programme gelistet bekommen, die Zerlegung in stems durchführen können.
Können alle das Gleiche oder gibt es da Unterschiede ?
Welches hast du benutzt und um wieviel macht einen die Anschaffung ärmer ?

MfG Kai
Zitieren
#11
(13.09.2021, 15:33)kaimex schrieb: Allerdings nehme ich deutlich Rauschfahnen und Crackle um die Stimm-Segmente wahr.

Die Knackser sollten vielleicht vorher auf "klassischem" Wege entfernt werden, so impulshaft ist keine Sprache der Welt.

Wie die Rauschfahnen vermindert werden können, weiß ich nicht, da ich mit dem System noch nie gearbeitet habe. Auf jeden Fall ein interessanter Ansatz, und sicherlich ausbaufähig Idea
Zitieren
#12
Hallo Peter,
zu deinen Anmerkungen zu Edison 1888 wollte ich noch fragen bezüglich:
"wegen der unüberhörbaren Trichterresonanzen, fast vollkommen fehlender Konsonanten und einiger geradezu explosiv hervortretender Vokalformanten"
Sind das drei unterschiedliche Erscheinungen oder sind fehlende Konsonanten und explosive Vokale bzw Vokalformanten die Folge der Trichter-Resonanzen ?
Falls nicht, was bewirkt das scheinbare Fehlen der Konsonanten ?
Wenn die Trichter-Resonanzen an allem schuld sind, könnte möglicherweise statt eines Kompressors ein automatisches Entzerren der Resonanzen ebenfalls auf FFT-Basis Abhilfe schaffen.
Allerdings haben die hohen Resonanz-Pegel wohl auch oft die Nichtlinearitäten des Aufnahme-Systems temporär besonders heftig zuschlagen lassen.
Es ist schon eine härtere Nuß.

MfG Kai
Zitieren
#13
Hallo Kai,

die fehlenden Konsonanten liegen alle oberhalb des Übertragungsbereichs. Konsonanten sind sinngebend, während Vokale tongebend sind.

Man kann das einfach dadurch selber ausprobieren, indem man eine perfekt gesprochene und technisch einwandfreue Aufnahme so schneidet, dass nur noch die Vokale und vielleicht noch z.B. "m"s oder "n"s übrig bleiben. Danach versteht man schlichtweg kein Wort mehr.

Die Trichterresonanzen sind fast durchweg die Hauptursache für das "Herausknallen" einzelner Vokale und Formanten, da diese sich immer im selben Frequenzbereich befinden.

Natürlich habe ich es auch mit FFT-Filterung probiert, das Problem ist dabei zweifach: 1) dass zwischen den Resonanzspitzen so wenig "Klangmaterial" vorhanden ist, dass danach die Sprache sehr viel leiser wird und 2) dass eine so steilflankige und radikale Filterung, wie sie den Resonanzen entspricht, selber zu weiteren Ein- und Ausschwingvorgängen führen, die die Sprachverständlichkeit wieder herabsetzen. Am Ende habe ich eine relativ leichte Filterung eingesetzt, die dafür sorgen soll, dass die Stimme möglichst verständlich wird und ihre Klangfarbe nicht schon nach zehn Sekunden auf die Nerven geht.

Lange Rede kurzer Sinn: Man kann aus einer Aufnahme nicht mehr herausholen als drin ist.

(13.09.2021, 15:47)kaimex schrieb: Es ist schon eine härtere Nuß.

So ist es.
Zitieren
#14
Das Spektrum der Spitzen geht ja bis knapp 5 kHz, allerdings dort ca 33 dB unter denen bei 700 Hz. während die Effektivwerte da "nur" ~26 dB unter dem Maximum bei 650-700 Hz liegen.
Wo sind denn die Konsonanten beheimatet ? Die hört man doch auch noch über das Telefon mit seinen 3,x kHz.
Ich hatte mich schon über die schlechte Verständlichkeit nach meinen Entrauschungsversuchen gewundert und gedacht, sie sei deren Folge.

Ich habe eben nach dem Original des von dir bearbeiteten Auszugs aus Einsteins Rede am  22.08.1930 gesucht und recht unterschiedliche andere Versionen gefunden. Ein sehr verrauschtes Fragment vom Anfang, eine fast rauschfreie 3:49 min Version bei youtube mit per KI koloriertem Video.

Wenn man sich an den Regeln/Formeln von Norbert Wiener zur Maximierung des Signal-Rasuchverhältnisses gestörter Signale orientiert, so ist Equalizing/Entzerrung sowie so der falsche Weg. Soweit ich mich erinnere, ist die optimale Filterung immer das eigene Spektrum. Die Folge ist dann (aber), daß man das Power-Spektrum erzeugt, bzw vielleicht verständlicher formuliert, man quadriert den spektralen Verlauf, was aber dem Wunsch nach Original-Klang bzw maximierter Klang-Ästhetik zuwider läuft.

MfG Kai
Zitieren
#15
(13.09.2021, 15:33)kaimex schrieb: Allerdings nehme ich deutlich Rauschfahnen und Crackle um die Stimm-Segmente wahr.


Die MP3 sind das "out of the box"-Ergebnis. Was das Programm als Voice erkannt hat:
   

Was übrig geblieben ist:
   

Im oberen Bild sind stehen gebliebenes Rauschen und Krackels gut zu erkennen (Stelle: ... ihrer Kunst, ihrer Kenntnis der ganzen Welt ...).
Jetzt müsste man noch mit der Maus photoshop-ähnlich nachbearbeiten (siehe heraus radiertes "HALLO" im unteren Bild).

(13.09.2021, 15:33)kaimex schrieb: Welches hast du benutzt und um wieviel macht einen die Anschaffung ärmer ?

SpectraLayers Pro von Steinberg. Die Element-Version schägt mit 79.99 Euronen zu Buche.
Die hat als einzige Unmix-Option: "Voice only" (Das was ich hier gemacht habe).
Radiergummi ist auch dabei. Smile

Gruß
Lois
Zitieren
#16
Danke,

ich hatte bislang 4-5 andere Programme gelistet bekommen, die allerdings je nach Ausstattung eher beim 4-5-fachen Preis lagen.

Inzwischen ist mir wieder eingefallen, daß es auch recht wirksame einfacher realiserbare digitale Entrauscher gibt: Das sind die viel  in der Kommunikationstechnik eingesetzten "Adaptive(n) Filter", die es als Rausch-Unterdrücker und als Interferenzton-Unterdrücker gibt.
Für Amateur-Funker gibt es die als separate Zusatz-Geräte, die dem Empfänger nachgeschaltet werden. In modernen Empfängern (Software Defined Radio, SDR) sind sie meist bereits enthalten.
Ich habe sowas mal vor ca ?25? Jahren noch auf Motorola DSP 56002 in Assembler programmiert.
Inzwischen läuft sowas auf jedem PC als Software-Modul mindestens ebenso flott.
Das habe ich vor einigen Jahren zum Zeitvertreib mal als WinAmp-Plug-In realisiert. Müßte ich mal wieder für diese Beispiele ausprobieren.

MfG Kai
Zitieren
#17
Hallo Kai,
noch ein Nachtrag - aus aktuellem Anlass.
Das RX 8 Elements (mit dem Modulen De-click, De-clip, De-hum und Voice De-noice) gibts momentan um 29 € (sonst 129 €), weil bald die 9er Version kommt.

Gruß
Lois


Angehängte Dateien
.zip   rx8 elements.zip (Größe: 313,36 KB / Downloads: 7)
Zitieren
#18
Wie denn, wo denn, was denn ?
Kannst du das empfehlen ?
Ist da die Stem-Geschichte drin ?
Was ist  Voice De-noice  ?
Ist das ein VST-Plug-in oder ein selbständiges Programm ?

Wo guckt man da...

MfG Kai
Zitieren
#19
z. B. da:
https://www.thomann.de/at/izotope_rx_8_elements.htm

Ja, kann ich empfehlen.
Die Stem-Sache hat nur die große Version.
Der Stimmenentrauscher ist ein De-Noiser, für Gesang oder Sprache optimiert.
   
Beides: Die Module stehen in der DAW auch als VSTs zur Verfügung.

Gruß
Lois
Zitieren
#20
Ich habe eben versucht bei thomann "down zu loaden". Stattdessen muß man erst bezahlen. Danach kam eine EMail mit einem Download-Link und einem Aktivierungs-Link beim Hersteller.
Unter dem Download-Link gibt es nicht das gewünschte Programm sondern einen 133 MB großen Download-Manager namens Download-Portal, wahlweise für Mac oder Windows-PC.
Damit konnte ich garnichts anfangen, da ich nur über Linux ins Netz gehe und eine RX-8 Version für Windows haben möchte.
Das Geld bin ich los und warte auf Antwort von thomann, ob sie mir Programm und Schlüssel zuschicken können oder ersatzweise Geld zurück.
Ist irgendwie nicht die feinste Methode.
Und ein 133 MB großer Download-Manager hat für mich auch etwas groteskes.

MfG Kai
Zitieren
#21
Hallo Kai,
du kannst die Installationsdatei auch da - ohne Download Manager - runterladen:
https://www.izotope.com/en/products/down...ments.html

Dann kannst du eh eine Zeit lang damit arbeiten ... inzwischen wird dir Thomann die Serial-Nr zugesendet haben.

Gruß
Lois
Zitieren
#22
Danke,

aber der Sachbearbeiter bei thomann wußte davon nichts.
Da bekam ich nur die Antwort (sinngemäß) "es geht nicht anders", woraufhin ich "um Geld zurück" gebeten habe.
Ich habe auch den Eindruck gewonnen (bin aber nicht ganz sicher), daß die Freischaltung ebenfalls nur über diesen Download-Manager durchführbar ist.

Ich kann noch etwas Neues über das Entrauschen der Edison Aufnahme von 1888 berichten, was aber in Widerspruch zum Thread-Titel nichts mit FFT zu tun hat:
Wie weiter oben erwähnt, habe ich mich früher mal mit adaptiven FIR/Transversal-Filtern beschäftigt und u.a. solche auch zu Testzwecken als WinAmp DSP-Plug-in implementiert.
Eines davon habe ich zunächst mal versuchsweise auf meinen Download mit 44.1 kSps angewandt. Es entfaltete dabei eine merkbare aber noch unbefriedigende Wirkung.
Peter hatte zwischendurch in einer PN Verwunderung über meine Ansicht geäußert, das Nutzspektrum gehe bis etwa 5 kHz.
Daraufhin habe ich mal mit Hörtests versucht, das tatsächliche spektrale obere Ende der Sprach-Aufzeichnung zu ermitteln.
Dazu den File in Audacity (englische Version) geladen, mit dem Effekt-Modul "Classical Filter, Chebyshev I, Highpass, Order: 10, Ripple 0.1 dB, Cutoff: xxxx Hz " Hochpass-gefiltert. Zunächst mit xxxx=4000 Hz, dann allmählich die Cutoff-Frequenz herabgesetzt, bis ich außer Rauschen auch erste Hochtonanteile der Sprache zu hören glaubte. Die Grenze schien bei 2100 Hz zu liegen.
Dann habe ich den Ausgangs-File mit der Lowpass-Version des gleichen Filter-Typs aber mit der Grenzfrequenz 1930 Hz gefiltert. Diese Frequenz habe ich gewählt, weil der 2100 Hz Hochpass und der 1930 Hz Tiefpass sich bei 2000 Hz und - 6dB "kreuzen". Diese Version der Aufnahme enthält nun den wesentlichen Teil des Nutzsignals.

Wendet man ein FIR-Filter bestimmter Länge bei einer Sample-Rate von 44.1 kSps auf eine Aufnahme mit nur etwa 2 kHz Bandbreite an, so verschwendet man viele Stufen des Filters auf eine Signal-Feinstruktur, die garnicht vorhanden ist. Das Filter wird viel wirksamer, wenn man die Sample-Rate so niedrig wählt, wie es unbedingt nach dem Abtast-Theorem nötig ist. Deshalb habe ich die Sample-Rate zunächst auf 11025 Hz reduzieren wollen, weil das gerade 1/4 der Anfangs-Sample-Rate wäre und die Reduktion einfach durch Mittelung der Samples über Gruppen von jeweils 4 Nachbarn erfolgen könnte. Als es dann aber an die Ausführung ging und ich schließlich fand, daß man die einfach mit Audacity durchführen kann, indem man die "Projekt Sample-Rate" auf den gewünschten Wert ändert (aus einer Liste erlaubter Werte) kam dort  auch noch 8 kSps in Frage und dem Ziel näher. Der genannte Tiefpass-Typ erreicht bei 3 kHz eine Dämpfung von etwa 68 dB, bei 4 kHz etwa 100 dB. Mit 8 kSps ist man also auf der sicheren Seite, kleinere Werte standen garnicht zur Auswahl.
Noch besser wäre gewesen, mit einem Ausgangsfile von 48 kSps zu starten, weil dann die Sample-Raten Reduktion mit Mittelung über jeweils 6 Samples erfolgen kann, was eine schnellere Rechnung und weniger Artefakte bewirkt als bei un-ganzzahliger Reduktion.

Ausgangsfile war bei diesem Versuch ein digitaler Mitschnitt der Wiedergabe des Originals beim DRA, danach mit WavePurity entknistert und entknackt, soweit das bei dem hohen Rauschpegel möglich war. Danach behandelt wie oben beschrieben.
Den resultierenden wav-File mit 8 kSps habe ich dann im alten WinAmp 2.95 geladen, zuvor mein Adaptiv-Filter Plugin aktiviert, und  mit WinAmp abgespielt.
Die Rausch-Reduktion war nun deutlich effektiver als beim ersten Vorversuch mit 44.1 kSps.
WinAmp hat eine Option, das Ausgangs-Signal statt an den normalen Sound-Ausgang in einen File zu schicken. Damit habe ich das Ergebnis eingefangen.
Eingangs- und Ausgangs-File habe ich später mit Lame in mp3 mit variabler Bit-Rate von Qualitätsstufe 3 (Option -V3) gewandelt für die Platz-sparende Vorstellung hier und in einem zip-File angehängt.
Edison1888wpLP1930SR8.mp3 ist der Eingangs-File,
Edison1888wpLP1930SR8ANF.mp3 ist das adaptiv gefilterte Ergebnis (ANF für Adaptive Noise Filter).
Das "Original" hatte Peter schon im Thread abgelegt.
Das Ergebnis kommt mir bereits recht nützlich vor, obwohl das Filter noch nicht für diese Anwendung nicht optimiert war.
Beim Abhören habe ich zwei Optionen: neben dem Filterergebnis kann ich auf das sogenannte Filter-Residuum umschalten. Das sollte bei gut eingestelltem Filter eigentlich nur die "unnützen" Signal-Anteile enthalten, also Rauschen und Nebengeräusche. Da war jedoch auch noch ein Sprachanteil vernehmbar. Das dürfte daran liegen, daß das Filter bei 8 kSps ca. 5.5-mal langsamer auf Änderungen des Signals reagiert als bei 44.1 kSps. Es müßten also sicherlich die Einschwingzeiten angepaßt werden. Das hatte ich beim Programmieren vor etlichen Jahren noch nicht vorgesehen...

MfG Kai


Angehängte Dateien
.zip   Edison1888wpLP1930SR8.zip (Größe: 1,71 MB / Downloads: 8)
Zitieren
#23
Hab nochmal einen neuen Versuch gestartet, diesmal mit FFT-Filterung des auf der Originalaufnahme vorhandenen Sprachspektrums. Viel besser scheint es mit den RX8 Werkzeugen nicht zu gehen ...


Angehängte Dateien
.zip   DRA Edison 1888 -2 declick denoise v2.zip (Größe: 1,36 MB / Downloads: 8)
Zitieren
#24
Hallo Peter,

hast du dabei von ~662 Hz bis hinab zu ~163 Hz eine Anhebung um 12.5 dB vorgenommen ?
Das Ergebnis klingt ja deutlich sonorer als das Ausgangsmaterial.

Mein adaptives Filter hat anscheinend ungebeten ein Absenkung um 6.7 dB durchgeführt und etwas Hall hinzugefügt.
Eine absichtliche spektrale Umgewichtung habe ich nicht veranlaßt..

Hast du ein Programm, mit dem man zum Vergleich aus den erzeugten Ergebnissen ein allgemein übliches Maß für den Geräusch-Abstand ableiten kann ?

MfG Kai
Zitieren
#25
(16.09.2021, 08:49)kaimex schrieb: hast du dabei von ~662 Hz bis hinab zu ~163 Hz eine Anhebung um 12.5 dB vorgenommen ?

Das kam etwas anders zustande: Ich habe die im FFT sichtbaren Resonanzspitzen per FFT "wegrasiert", danach die Filterwirkung proportional abgeschwächt (sonst wäre kaum noch etwas Verständliches zu hören gewesen) und den Über-Alles-Frequenzgang im Nutzfrequenzbereich dem von rosa Rauschen angenähert. Dies ergab eine Pegelreduktion von ca. 12 dB, die ich danach wieder normalisiert habe. In einem zweiten Arbeitsgang habe ich den Spectral Denoiser und hinterdrein einen 72 dB/Okt. Tiefpass (<3.300 Hz) und einen 36 dB/Okt. Hochpass (>126 Hz) eingeschleift.


(16.09.2021, 08:49)kaimex schrieb: Hast du ein Programm, mit dem man zum Vergleich aus den erzeugten Ergebnissen ein allgemein übliches Maß für den Geräusch-Abstand ableiten kann?

Eigentlich nur den Audiotester, oder halt analog (Grundig MV-5 O + KM5A).
Zitieren
#26
Sehr cool Peter, was du aus der Edinson-Aufnahme raus gezaubert hast.
Bin schon gespannt, welche weiteren Möglichkeiten RX9 (von Izotope, nicht der RX9 Saugroboter von AEG Wink ) bringt.
Gruß
Lois
Zitieren
#27
Um einen besseren Einblick in das Grundgeräusch-Spektrum der Edison Aufnahme zu bekommen, habe ich mal alle Segmente mit hörbarer Sprache rausgeschnitten.
Da blieben im ersten Durchgang 64 Sekunden übrig. Das über die ganze Länge gemittelte Spektrum von FFTs mit Blöcken von 8192 Länge sah dann so aus:
   
Die Minimal-Werte (grün) sehen schon recht unstrukturiert/rauschartig aus, während die Effektiv-Werte (blau) und insbesondere die Spitzen-Werte noch rausragende Buckel bei 200-450  Hz erkennen lassen.
Unverkennbar ist aber bereits, daß das Grundgeräusch aus einem Tal bei 150...200 Hz mit 1.ter Ordung (20 dB/Dekade) bis etwa 2 kHz ansteigt, also proportional zu f. (Der Ausgangs-File war Tiefpass-gefiltert auf ca. 2 kHz Bandbreite.)
Dann habe ich diesen File nochmals mit Audacity inspiziert, reingehorcht und Sprachreste vernommen, die sich recht gut mit der spektralen Editier-Funktion von Audacity lokalisieren und wegschneiden ließen.
Dann habe ich (leider) gleich noch eine Hochpass-Filterung mit 130 Hz Grenzfrequenz vorgenommen.
Der verbliebene Rest hat eine Länge von 53 Sekunden.
Der zeigt folgende Spektren:
   
Die Buckel sind weitgehend aus der blauen und roten Kurve verschwunden.
Alle drei Kurven zeigen nahezu den gleichen (relativen) Verlauf.
Wegen individueller Skalierung sind die Absolutwerte beider Bilder nicht vergleichbar.
Diese Darstellung regt dazu an, den Original-File einer Frequenzgang-Korrektur mit 1/f zwischen 150...200 Hz bis 2 kHz zu unterwerfen, damit das Grundgeräusch flaches Spektrum bekommt und nicht im Bereich hoher Ohr-Empfindlichkeit angehoben wird. Das Resultat klingt jedoch zu dunkel.
Da das Signalspektrum oberhalb ~700 Hz (Bilder in Beitrag #3) bereits stark abfällt, sollte die Korrektur allenfalls bis dort gehen.
Mit dem üblichen Verlauf des Spektrums von Sprache und Musik im Hinterkopf ( etwa flach bis um 400 Hz, dann allmählich abfallend), wäre es nicht abwegig, zwischen 400 - 700 Hz die Korrektur sogar mit Annäherung an 1/f² durchzuführen.

MfG Kai
Zitieren
#28
Hallo Kai,
kannst Du das erste Spektrum auch für einige Nutzsignal-Schnipsel wiederholen?
VG Jürgen
Zitieren
#29
Nicht für Schnipsel, sondern nur für (fast) den gesamten File. Da fehlt nur ein kurzes Stück am Anfang, weil ich bei meinem Mitschnitt nach jedem Start die Aussteuerung um ca 8 dB hochziehen mußte. Den Fade-in Teil habe ich nachträglich weggeschnitten.
   
Auch dieser File ist individuell skaliert.
Vergleichbar mit den andern Bildern sind also nur Signal-Verhältnisse bzw dB-Differenzen.

MfG Kai
Zitieren


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste