4,9 min readPublished On: 8. September 2022By Tags: , , , Categories: Bücher

Weißt Du, wie ZIP-Datei-Komprimierung funktioniert?

Zu große Mail-Anhänge kommen nicht an.

Hattest Du schon einmal das Problem, dass Du eine Datei per E-Mail versenden wolltest, und diese nicht verschickt werden konnte, weil sie zu groß war? Wenn es sich bei der Datei um ein Bild handelt, hilft es oft, einfach die Dateigröße zu verändern, indem die Auflösung von zum Beispiel 4000×4000 Pixel auf 500×500 Pixel reduziert wird. Dadurch schrumpft die Dateigröße, und das Bild lässt sich ohne Probleme per E-Mail versenden. Das Problem dabei ist, dass das Bild nun eine deutlich geringere Auflösung hat und pixelig wird, wenn es vollflächig auf einem Monitor dargestellt wird, der größer als 500×500 Pixel ist.

Anders schaut es bei ZIP-Komprimierungen aus. Wer Windows 10 oder 11 nutzt, klickt einfach mit der rechten Maustaste auf die Datei oder Dateien, die zu groß sind und klickt dann in der Auswahl, die sich öffnet, auf „in ZIP-Datei komprimieren“. Binnen weniger Sekunden erscheint ein Ordner mit einem Reißverschluss, der die ausgewählten Dateien enthält. Er zum Teil eine deutlich geringere Dateigröße hat als das Original und kann per E-Mail verschickt werden.

Das Magische an diesem Ordner, oder genauer gesagt, diesem ZIP-Archiv, ist, dass er, sobald er entpackt wird, wieder die ursprüngliche Dateigröße hat. Bei

Richard Eisenmenger, Florian Brinkmann: WordPress 6. Das umfassende Handbuch

bin ich über die Information gestolpert, dass es nicht nur ZIP- sondern auch TAR-Archive gibt. Von Letzteren habe ich noch nie etwas gehört. Und als ich mich fragte, was das für Archive sein könnten, fiel mir zum ersten Mal auf, dass ich seit Ewigkeiten ZIP-Archive benutze und keinen blassen Schimmer davon habe, wie sie funktionieren. Daher sehen wir uns heute diese beiden Archive etwas genauer an und finden hoffentlich heraus, wie der Zauber aus „groß mach klein und dann wieder groß“ funktioniert.

Was bedeutet die Abkürzung ZIP?

Wow, Zip steht echt für Reißverschluss.

Dass es nur wenige Klicks braucht, um eine normale Datei in eine ZIP-Archiv-Datei zu erstellen, haben wir eben schon gesehen. Was wir noch nicht wissen, ist, wofür ZIP steht. Ist es eine Abkürzung für Zipper, also das englische Wort für Reißverschluss, weil dieser das optische Erkennungszeichen für ein ZIP-Archiv ist? Lass uns doch einmal schauen, was das Internet dazu sagt. Was soll ich sagen? Die Webseite Silver-Tipps bestätigt unsere Vermutung. ZIP ist tatsächlich die Abkürzung für Reißverschluss.

Das Wissen um die Bedeutung der Abkürzung bringt mich an dieser Stelle nicht weiter. Für mich ist ein Reißverschluss ein Werkzeug, um ein Kleidungsstück zu verschließen. Er komprimiert nichts. Obwohl, wenn ich an Reißverschlüsse von Jeans denke, komprimieren die meist doch irgendwie. Ist die Jeans frisch gewaschen, heißt es beim Verschließen des Knopfes und Reißverschlusses meistens:Luft anhalten. In gewisser Weise komprimiert dieser Reißverschluss den Körper des Jeansträgers für eine gewisse Zeit. Ist der Reißverschluss zu, atmet der Jeansträger entspannt aus und sein Körper dekomprimiert so weit, wie es die Jeans zulässt. Lass uns doch mal schauen, ob das Luftanhalten beim Anziehen einer Jeans irgendetwas mit der Komprimierung bei ZIP-Archiven zu tun hat.

Wie funktionieren ZIP-Archive?

Mit einer Engelsgeduld erklärt der junge Mann in diesem YouTube Video, wie ein ZIP-Archiv funktioniert. Bei der Komprimierung sucht ein Algorithmus nach sich wiederholenden Informationen in der Originaldatei. Wenn er Wiederholungen findet, ersetzt er diese durch einen kürzeren Stellvertreter. Das mag jetzt kompliziert klingen, ist aber ganz einfach. Im Prinzip machst Du das Gleiche, wenn Du normale Zahlen als Römische Ziffern darstellst, also statt einer 1000 ein M oder statt einer 5000 ein A schreibst. Wer sich mit Römischen Ziffern auskennt, weiß, dass A für 5000 und M für 1000 steht und weiß somit auch, dass der eine Buchstabe für 4 normale Zahlen steht. Bei unserem Zahlenbeispiel brauchen wir nur ein Viertel des „Speicherplatzes“, um die gleiche Information zu transportieren. Genau das Gleiche macht der Algorithmus beim Erstellen eines ZIP-Archives. Beim Entpacken dreht er den Vorgang um und erzeugt so wieder die ursprünglichen Informationen.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Was mir an dieser Stelle ein Rätsel bleibt, ist, wie der Name ZIP-Datei zustande kam. In meiner Wahrnehmung hat ein Reißverschluss (bzw. unser Jeansbeispiel) so gar nichts mit der Funktionsweise des Algorithmus zu tun.

Was sind TAR-Archive?

Ja, mein Großvater hat Daten auf Kassetten gespeichert.

Nachdem wir nun endlich wissen, wie ein ZIP-Archiv funktioniert, ist es an der Zeit herauszufinden, was es mit dem TAR-Archiv auf sich hat, das unser Autor beiläufig in seinem Buch erwähnt. Wikipedia verrät uns, dass die Buchstabenreihenfolge TAR gleich zwei Bedeutungen hat:

  1. TAR ist die Abkürzung für tape archiver. Nein, das hat jetzt nichts mit Klebeband zu tun, sondern mit Kassetten (umgangssprachlich Tape), die in den Anfängen des Computerzeitalters weit verbreitete Speichermedien waren.
  2. Tar ist ein englisches Wort und bedeutet ins Deutsche übersetzt Teer.

Soweit ich es verstanden habe, funktioniert die Komprimierung bei einem TAR-Archiv ähnlich wie bei einem ZIP-Archiv.

Fazit

Obwohl ich seit mehreren Jahrzehnten 😱 ZIP-Archive nutze, habe ich sie bis heute lapidar ZIP-Dateien genannt und hatte keinen blassen Schimmer von ihrer Funktionsweise. Ja, ich bin nicht einmal auf die Idee gekommen, dass der Reißverschluss an der Datei irgendetwas mit der Abkürzung ZIP zu tun hat. Zum Glück gibt es Bücher, wie das unserer heutigen Autoren, die uns mit ihrem TAR-Archive Name-Dropping „unabsichtlich“ dieses Wissen geschenkt haben.

Ich bin gespannt, ob und wie Du das heute gewonnen Wissen in Zukunft für Dich nutzen kannst.