Audio- und Videodateien

Ein paar grundlegende Dinge über Audio- und Videodateien. Diese und die untergeordneten Seiten sollen ein Wegweiser für all diejenigen sein, die sich in kurzer Zeit ein Grundverständnis über die relevantesten Dinge zu Audio- und Videodaten aneignen möchten.
by Takeshi
Folgende Eigenschaften gibt es bei Videos:

- Auflösung
Typische Auflösungen sind 320x240, 640x480, 768x576, 1280x720, 1920x1080.

- Format / Seitenverhältnis
Früher 4:3, heute 19:9, im Kino weitere Formate. Meistens gibt die Auflösung das Seitenverhältnis vor, allerdings ist das nicht zwingend so. Es kann auch sein, dass das angezeigte Seitenverhältnis von dem der Auflösung abweicht und der Abspieler das Video streckt / staucht.

- Farbtiefe (Anzahl an Bits pro Farbe)
Standrd ist seit Beginn 8 Bit (1 Byte) pro Farbe, bei 3 Farben also 24 Bit. Inzwischen werden aber immer häufiger 10 Bit pro Farbe genutzt. Die Bezeichnung ist leider nicht klar definiert und etwas verwirrent. So wird bei 8 Bit pro Farbe gern von "24 Bit Farbtiefe" gesprochen, bei 10 Bit pro Farbtiefe dann aber von "10 Bit Farbtiefe". "48 Bit" ist auch zu finden, allerdings kaum im Video-Bereich, sondern eher bei Bildern.

- Bildwiederholrate
Ein Europa sind historisch bedingt 50 Bilder üblich, in Amerika und Japan 60 Bilder. Im Kino werden 24 Bilder pro Sekunde eingesetzt.

- Interlaced (ja/nein)
Da die ersten TV-Geräte nicht in der Lage waren von einer Zeile auf die direkt folgende zu springen, hat man sich entschlossen die Bildwiederholrate zu erhöhen (von 25 auf 50 bzw. von 30 auf 60), die Auflösung in der Höhe zu halbieren und in einem Bild die geraden und im darauffolgenden Bild die ungeraden Zeilen zu übertragen. Diese technische Krücke, Zeilensprungverfahren genannt, ist seit Jahrzehnten nicht mehr nötig, wurde zwecks Kompatibilität aber lange beibehalten. Spielt der Player solche Videos "normal" ab, geht also davon aus, dass keine Halbbilder, sondern Vollbilder enthalten sind, tauchen bei Bewegungen Linien im Bild auf, weil zwei zeitlich versetzte Bilder verschachtelt in einem gespeichert sind und beide zusammen angezeigt werden.
by Takeshi
Bei Sound ist es etwas einfacher, hier gibt es nur zwei Kenngrößen:

- Abtastrate (zeitliche Auflösung, Frequenz)
Gibt an, wie viel Werte pro Zeit erfasst werden. Um ein Signal einer Frequenz zu detektieren, ist eine mindestens doppelt so hohe Abtastrate nötig. Üblich sind 44100 Hz und 48000 Hz.

- Anzahl Bit pro Abtastwert
Mit steigender Anzahl an Bit pro Abtastwert steigt auch die Anzahl der möglichen Werte bei der Digitalisierung. Mit beispielsweise 2 Bit ließen sich 4 verschiedene "Signalhöhen" abspeichern, respektive 0 %, 33 %, 66 % und 100 %. Werte dazwischen müssen gerundet werden. In der Praxis werden natürlich wesentlich mehr Bit verwendet.
Auf diesen Wert hat man üblicherweise keinen direkten Einfluss.
by Takeshi
Es ist grundsätzlich möglich Videos in "Rohdaten" zu speichern, doch die Dateien würden explodieren. Ein kleines Rechenbeispiel zur Veranschaulichung:

Nehmen wir an, wir haben ein Video in der Auflösung 1280x720 (720p) mit 50 Bildern pro Sekunde. Ein Pixel besteht aus den drei Farben Rot, Grün und Blau, von jedem sind 256 Abstufungen möglich, wozu jeweils 8 Bit = 1 Byte nötig sind. Für alle drei Farben macht das 3 Byte (24 Bit). Bei der Auflösung sind es 921.600 Pixel pro Bild, 50 Bilder sind es pro Sekunde. Also fallen pro Sekunde 138240000 Byte = 131,8 MB Daten an. Für eine Stunde wären also rund 463 GB nötig - völlig unpraktikabel.

Deshalb werden Videodaten komprimiert gespeichert und später wieder dekomprimiert. Dazu wird ein Algorithmus benötigt, der allgemein Codec genannt wird. Der Encoder enthält den Algorithmus zum komprimieren, der Decoder zum Dekomprimieren. Wenn von einem Codec die Rede ist, ist dabei nicht ganz klar, ob der Encoder, der Decoder, oder beide enthalten sind. Für einige Codecs müssen Lizenzkosten gezahlt werden, teilweise allerdings nur zum Kodieren, nicht zum Dekodieren. Dann erhält der Endanwender lediglich den Codec zum Dekodieren und das kostenlos. Um Videos in dem Format zu erstellen, muss der Encoder kostenpflichtig erworben werden.

Bekannte Video-Codecs sind MPEG (1, 2 und 4), h.264, DivX oder WMV (Windows Media Video). Alle Formate sind verlustbehaftet.


Beim Sound ist es ähnlich wie beim Video, nur ist unkomrimierter Sound im Alltag bekannter als bei Videos. Die Audio-CD enthält nämlich den Sound völlig unkomrimiert und benötigt für eine Stunde ca. 700 MB.

Bekannte Audio-Codecs sind MP3, AAC, OGG oder FLAC.
by Takeshi
Man kann nicht einfach Video und Audio (sogenannte "Streams") in eine Datei schreiben, der Player wüsste gar nicht, wo denn jetzt genau die Video- und wo die Audio-Daten sind und Metadaten fehlen ihm unter Umständen auch. Deshalb benötigen wir noch einen Container, ein vordefiniertes Format zum Speichern mehrerer Informationen in einer Datei. Und da gibt es größere Unterschiede, als man zuerst denken mag. Bei einem Video mit einem Sound ist das noch recht simpel, aber was ist, wenn die Tonspur in mehreren Sprachen vorliegen soll? Dann müssen mehrere Audio-Streams gespeichert werden. Dann wäre es noch möglich, dass der Sound in Stereo und 5.1 vorliegt oder ein Untertitel in mehreren Sprachen beiliegt. Nicht zu vergessen sind so banale Sachen wie Titel, Autor oder das Jahr. Der Container muss Platz zur Speicherung all dieser Informationen vorsehen. Nicht jeder bietet die Möglichkeit für alle Daten.

Es kommt noch eine weitere Schwierigkeit hinzu. Wird eine Datei zum Beispiel von einem optischen Datenträger gelesen, ist es nicht möglich zuerst die kompletten Bildinformationen zu speichern und dann den Sound hinten dran. Je nach Länge des Videos müsste der Laser ständig riesengroße Sprünge auf der Disk machen, um den zusammengehörenden Sound und das Bild zu lesen. Der Container muss dafür die Möglichkeit bieten Bild und Ton gestückelt und passend zusammengepackt in die Datei zu packen. Dafür muss er auch den Codec kennen, es ist also nicht jeder Container mit jedem Codec kompatibel.

Muxer wird ein Programm genannt, das mehrere Streams in einem Container zu einer Datei zusammenfügt ("muxt"), ein Demuxer trennt ("demuxt") die einzelnen Streams voneinander.
by Takeshi
Der Durchschnittsnutzer achtet - wenn überhaupt - darauf, dass "das Format stimmt" und er dieses abspielen kann. Oft wird allerdings nicht zwischen Codec und Container unterschieden, der Container zum Video-Format degradiert oder das Soundformat außer Acht gelassen.
Egal, ob es sich um einen Software-Player auf dem Rechner oder um Hardware wie einen Blu-ray-Player, den Fernseher oder eine Spielekonsole handelt, der Player muss sowohl den Codec als auch Container verstehen. Ein klassisches Beispiel ist das derzeit (2015) weit verbreitete Format h.264. Sowohl bei den Containern MP4 als auch MKV sind die Video-Streams meistens mit h.264 kodiert, es gibt aber nach wie vor Hardware-Player, die zwar h.264 verstehen, aber MKV nicht.
by Takeshi

Impressum

Powered by FrogBoard Basic v0.4.0 alpha
and FrogBoard Page v0.2.0 alpha
trisaster Dev © 2009-2020