Software oder AddOn gesucht
#1
Hallo,

ich suche eine Software oder AddOn zum lokalen Abspeichern einer grösseren Website aus dem Internetarchiv archive.org. Es geht mir um ein abgeschaltetes Forum, das aber vollständig bei archive.org zu finden ist. Es geht um diese Startadresse, sie soll komplett mit allen Unterforen und den darin enthaltenen Beiträgen lokal gespeichert werden. Am besten als html-Dateien, damit man man auch lokal durch den Inhalt browsen kann. Ich arbeite lokal mit Windows.

MfG, Tobias
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren
#2
http://www.httrack.com/
Zitieren
#3
Hallo Michael,

Danke für den Tip, meine ersten Versuche mit Httrack waren leider nicht von Erfolg gekrönt, ich werde aber noch weiter probieren.

MfG, Tobias
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren
#4
Ja, sorry, hätte ich schreiben sollen, die Konfiguration ist etwas wirr für heutige Verhältnisse. Als die Software neu rauskam, war das aber gut gelöst.

Du kannst auch mal mit wget für Windows probieren. Wenn es damit nicht wirklich gut geht (wegen serverseitiger Scripts oder sowas), dann ist auch Httrack etwas komisch.

Gruß
Michael
Zitieren
#5
Ich war viele Jahre meines Lebens in der von mir sehr ungeliebten IT-Branche selbstständig und behaupte, einen relativ hohen Kenntnisstand zu haben, HTTRACK habe ich aber auch noch kein einziges mal mit zufriedenstellendem Ergebnis eingesetzt.

Auch ich wäre für einen guten Hinweis dankbar und schließe mich der Suche von Tobias an.
Gruß
Michael

Zitieren
#6
Ich verwende normalerweise wget auf der Kommandozeile, zum Spiegeln ganzer Seiten mit dem Aufruf "wget -m -np <url>" (-m für "mirror" und -np für "no parent", also "nichts oberhalb des angegebenen Verzeichnissen laden" - insbesondere nicht das gesamte Internet...). Das müsste es auch für Windows geben.

Funktioniert in den meisten Fällen ohne weitere Probleme, hab es aber für diese Seite nicht ausprobiert

Viele Grüße
Andreas
Zitieren
#7
Das einzige, was zumindest einigermaßen zuverlässig zu funktionieren scheint, ist das hier:

https://github.com/hartator/wayback-machine-downloader

Beim Aufruf bitte drauf achten, daß nur der Basis-URL als Parameter übergeben wird. Also nicht:

Code:
wayback_machine_downloader https://web.archive.org/web/20201028170219/http://tonbandhobby.de/

... sondern einfach...

Code:
wayback_machine_downloader http://tonbandhobby.de/

Es sei aber drauf hingewiesen, daß die Nutzungsbedingungen von archive.org das Herunterladen von Snapshots verbieten.

Ob es auch einen Weg gibt, das unter Microsoft-Betriebssystemen zum Laufen zu bringen, weil ich nicht.
Zitieren
#8
Habe gerade einmal die Lösung von timo probiert, damit geht es. Ich lasse das jetzt mal laufen, mache ein Archiv draus und gebe euch das dann zum Download von meinem Server.
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#9
Ach, da oben stand ja der Link auf die zu spiegelnde Seite drin. Hatte ich völlig übersehen, sonst hätte ich es gleich mal damit ausprobiert.

Aber wurscht, ist ja jetzt gelöst.
Zitieren
#10
Ja, läuft hier gerade durch. Ich tarre das Endergebnis dann schnell und lade es hoch, dann kann er das einfach als Link herunterladen. Übrigens, tausend Dank für den Tipp, schönes praktisches Script um viele alte dinge nochmal separat vom archive zu retten
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#11
Unter Mac OS kann ich SiteSucker empfehlen. Die Probleme mit HTTrack kann ich nicht ganz nachvollziehen - bis jetzt habe ich damit immer gekriegt, was ich wollte. Problematisch sind dynamische Seiten mit Scripten, aber das versteht sich von selbst. Mit statischen Seiten geht's (die gibt's aber kaum noch). Mir geht's aber auch eher um Inhalte wie z.B. Dokumente resp. Scans (wie z.B. hier http://www.hifi-archiv.info/Tandberg/197...S-Katalog/). Das machen beide Programme problemlos.
Liebe Grüße
Thomas
Zitieren
#12
Hallo,

ich bedanke mich für eure Bemühungen. Timo hat mir jetzt Hilfe angeboten. Kann es sein, dass das Programm wayback_machine_downloader für Linux ist ? Ich habe das Programm heruntergeladen und entpackt, aber unter Windows kann ich es nicht starten.

MfG, Tobias
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren
#13
Hallo Tobias,

es handelt sich um ein Ruby-Script, insofern sollte es zumindest theoretisch plattformunabhängig sein, wenn es sauber entwickelt wurde und keine betriebssystemspezifischen Funktionalitäten genutzt werden. Man müsste unter MS Windows mal einen Ruby-Interpreter installieren und testen.

Ich habe es unter Ubuntu 20.10 ausgeführt.

Gruß,
Timo
Zitieren
#14
Kurzer Zwischenstand: Es lädt immernoch runter. Die Server von archive.org sind extrem langsam und das Forum vergleichsweise groß:

Kleiner Screenshot, die Dateinamen scrollen langsam und gemächlich durch:
[Bild: screen.png]

Mein Server mit dem ich runtterlade steht im Rechenzentrum, von daher ist archive.org der bremsende Faktor.

Sobald es fertig ist, gebe ich Bescheid und euch einen Link zum Download
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#15
Hab' ich gestern auch festgestellt. Allein der Bereich "Vintage Amplifiers", für den Bitbrain sich interessiert, umfasst 143935 Dateien. Nach zehn Minuten hatte ich gerade mal um die 100 Dateien heruntergeladen. Das hätte Ewigkeiten gedauert, also hab' ich erst mal abgebrochen. Muss ja auch nicht sein, daß wir uns die Arbeit doppelt machen.
Zitieren
#16
Ich bedanke mich nochmal für euren Einsatz, ihr seid Klasse.

MfG, Tobias
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren
#17
(21.12.2020, 21:08)timo schrieb: Hab' ich gestern auch festgestellt. Allein der Bereich "Vintage Amplifiers", für den Bitbrain sich interessiert, umfasst 143935 Dateien. Nach zehn Minuten hatte ich gerade mal um die 100 Dateien heruntergeladen. Das hätte Ewigkeiten gedauert, also hab' ich erst mal abgebrochen. Muss ja auch nicht sein, daß wir uns die Arbeit doppelt machen.
Jo, ich lass das einfach in ner screen-Sitzung auf meinem Server nebenher laufen und schaue einmal täglich rein. Selbst wenn es ein paar Tage dauert, macht das ja erstmal nichts.

(21.12.2020, 21:35)bitbrain2101 schrieb: Ich bedanke mich nochmal für euren Einsatz, ihr seid Klasse.

MfG, Tobias
Machen wir gerne Smile
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#18
@ eudatux23,

in dem Screenshot in #14 taucht sehr oft das Wort "deprecated" = abgelehnt auf, das würde mir Sorgen machen.

MfG, Tobias
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren
#19
(21.12.2020, 21:57)bitbrain2101 schrieb: in dem Screenshot in #14 taucht sehr oft das Wort "deprecated" = abgelehnt auf, das würde mir Sorgen machen.

In dem Fall heißt das eher so viel wie "überholt" oder "veraltet".

Es ist kein Grund, sich Sorgen zu machen. In der Programmierung werden Methoden von Bibliotheken, die durch andere (mutmaßlich bessere) ersetzt wurden, häufig für eine Übergangszeit als "deprecated" gekennzeichnet. Das heißt so viel wie: Sie funktionieren derzeit aus Kompatibilitätsgründen noch, werden es aber möglicherweise in einer der kommenden Versionen nicht mehr, deshalb sollten die entsprechenden Aufrufe ersetzt werden. Also eher ein Hinweis an den Entwickler als an den Anwender.
Zitieren
#20
Danke Timo. Das ist wieder so ein Punkt, wo mir der "Danke" Button fehlt.
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren
#21
So, ich habe die Dateien jetzt heruntergeladen und komprimiert, hier das Archiv:
https://merlwin.ch/plexiboard.tar.xz

Leider sind die Dateinamen noch so wie sie der Webserver ausgeliefert hat, heißen also zum Beispiel
viewtopic.php?t=9899&highlight=&sid=f942a0d56ddf1a7a9d3ca1c8be757c03

Timo, kannst du da eventuell einmal drüber schauen? Ich denke, mit ein bisschen sed, awk und co kann man das (und auch die Verlinkungen innerhalb der Dateien) in den Griff bekommen, sodass bitbrain2101 diese dann ganz normal in seinem WIndows öffnen kann. Mir fehlt leider gerade ein bisschen Zeit, da ein Script für zu basteln, sollte aber generell machbar sein.

Schöne Grüße
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#22
Ich hab mal reingeschaut...

Wie das bei dynamisch generierten Seiten eben so ist, müsste man alle URLs ersetzen, denn sie beinhalten auch Session-IDs (?sid=...). Damit sind leider auch viele leicht unterschiedliche Versionen des Inhalts gespeichert, zu unterschiedlichen Zeiten mit anderer SID abgerufen. Wie man die sinnvoll automatisch zusammenführt, weiß ich auch noch nicht. Alleine index.php ist in 1010 Versionen enthalten.

Die "große" Variante wäre, die Threads zu parsen, die Beiträge auszulesen, separat zu speichern und dann html neu zu generieren. Oder sogar - wie bei der Foren-Migration - eine neuen myBB-Instanz mit dem Inhalt füllen. Vielleicht ist das am Ende sogar der schnellste Weg.

Ansonsten könnte man versuchen, eine Übersetzungstabelle von altem auf neuen Dateinamen zu erstellen, dabei irgendwie das Versions-Dopplungs-Problem zu lösen, und dann "brute force" die URLs in den html-Dateien nach der Tabelle zu ersetzen.

Wahrscheinlich will man ja nur die neueste / letzte Version eines Beitrags oder Threads aufheben; dazu müsste man irgendwo aus der Seite noch Datum und Zeit herausparsen, und danach sortieren.

Hm. Eigentlich wollte ich doch am Tonband und an diesem Forum basteln...

Viele Grüße
Andreas
Zitieren
#23
Eventuell kann man ja bei dem archive.org-Grabber sagen, dass er nur die neueste Version ziehen soll. Dann sollte es doch nur eine einzelne Session-ID mit dem neuesten Stand geben. Oder übersehe ich etwas? Habe mit dem Script bisher noch nicht zu tun gehabt.
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#24
(23.12.2020, 13:58)andreas42 schrieb: Damit sind leider auch viele leicht unterschiedliche Versionen des Inhalts gespeichert, zu unterschiedlichen Zeiten mit anderer SID abgerufen.

Tja, wenn man anhand der SID herausfinden könnte, welche die neueste Version ist, würd' ich ja sagen: Neueste behalten, alle anderen wegschmeißen, SID aus und Dateinamen und allen Links entfernen. Leider wird das wohl nicht gehen.

(23.12.2020, 14:19)eudatux23 schrieb: Eventuell kann man ja bei dem archive.org-Grabber sagen, dass er nur die neueste Version ziehen soll. Dann sollte es doch nur eine einzelne Session-ID mit dem neuesten Stand geben. Oder übersehe ich etwas? Habe mit dem Script bisher noch nicht zu tun gehabt.

Ich auch nicht. Hätte auch, ehrlich gesagt, gedacht, daß er ohne Parameter nur die letzte Version herunterlädt und nicht alle.

Die Hilfe sagt:

Code:
    -s, --all-timestamps            Download all snapshots/timestamps for a given website
    -f, --from TIMESTAMP            Only files on or after timestamp supplied (ie. 20060716231334)
    -t, --to TIMESTAMP              Only files on or before timestamp supplied (ie. 20100916231334)
Zitieren
#25
Die Frage ist jetzt natürlich, ob -s der Standard ist den es immer fährt. Ansonsten könnte ich das nochmal mit -f und -t eingrenzen auf den Zeitpunkt des letzten Snapshots der auf archive.org gelistet ist. Problem dabei wiederrum ist dann aber, dass nicht jeder Snapshot alle Dateien einer Webseite enthält und wir damit Gefahr laufen, dass am Ende einzelne Threads des Forums fehlen oder ähnliches...
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#26
Hallo eudatux23,

ich bedanke mich für deine Hilfe, ich habe die tar-Datei heruntergeladen und mit Winrar entpackt. Mit welchem Windows Programm kann man die php-Dateien öffnen, bin da etwas ratlos.

MfG, Tobias
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren
#27
Hallo Tobias,
wir sind da gerade noch dran dass die Dateien zusammengeführt werden und lesbar sind. Ich teste heute über Nacht eine andere Variante, bei der ich hoffe dass die Dateien dann korrekt (nur in der aktuellen Version) erscheinen.
Danke für deine Geduld!
Schnürsenkelband: Teac A3300SX-2T, Revox A77 MK3, Sony TC-366, Grundig TK 3200, Grundig TK 8, Simonetta TB 491
Kassette: Onkyo TA-2870, RFT SK 3000 Hifi
--
Lieblings-Bandsorten / Empfehlungen in zufälliger Reihenfolge:
Standardband: Orwo 104, Orwo 106, Orwo 103, Orwo 100, BASF/Agfa PER-528
Langspielband: Orwo 113, BASF/Agfa PER-368, LPR-35, BASF PES-40, BASF LGS-35, Agfa PE-31/PE-36/PE-39
Doppelspielband: Orwo 120, BASF LGS-26, Agfa PE-41/PE-46/PE-49, Grundig GD15
Dreifachspielband: Orwo 130
Zitieren
#28
Merci bien und schöne Weihnachten.

MfG, Tobias
Strom kann erst dann fliessen, wenn Spannung anliegt.
Zitieren


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste