1
00:00:08,124 --> 00:00:10,742
Workstations und hoch-qualitative PCs sind nun schon

2
00:00:10,742 --> 00:00:14,749
seit mehr als 15 Jahren fähig, digital Audiodaten zu manipulieren.

3
00:00:14,749 --> 00:00:17,470
Es sind nun gerade mal fünf Jahre, dass eine vernünftige Workstation fähig ist,

4
00:00:17,470 --> 00:00:21,643
rohe Videodaten ohne viel Spezial-Hardware zu handhaben.

5
00:00:21,643 --> 00:00:25,400
Aber heutzutage haben selbst die billigsten Universalcomputer

6
00:00:25,400 --> 00:00:28,092
ausreichend Prozessor- und Speicher-Fähigkeiten um mit rohen Videodaten

7
00:00:28,092 --> 00:00:30,479
ohne größere Probleme umgehen zu können.

8
00:00:30,479 --> 00:00:33,579
Da nun jeder Zugang hat zu solcher billigen und fähigen Hardware,

9
00:00:33,579 --> 00:00:36,651
ist es nicht überraschend, dass mehr Menschen interessante Dinge

10
00:00:36,651 --> 00:00:39,908
mit digitalen Medien unternehmen wollen - insbesondere Streaming.

11
00:00:39,908 --> 00:00:44,017
YouTube war der erste große Erfolg und jeder möchte jetzt daran teilhaben.

12
00:00:44,017 --> 00:00:47,413
Gut so! Denn dieses Zeug macht sehr viel Spass!

13
00:00:48,250 --> 00:00:51,179
Es ist kein Problem, Benutzer für digitale Medien zu finden.

14
00:00:51,179 --> 00:00:54,649
Aber ich möchte hier die Ingenieure, die Mathematiker, die Hacker,

15
00:00:54,649 --> 00:00:57,869
die Menschen ansprechen, die an Entdeckungen interessiert sind,

16
00:00:57,869 --> 00:01:01,302
und die Dinge erfinden, und die Technologie selbst erzeugen.

17
00:01:01,302 --> 00:01:03,282
Leute nach meinem Herzen.

18
00:01:04,250 --> 00:01:08,723
Digitale Medien, insbesondere Kompression, wird als super-elitär wahrgenommen,

19
00:01:08,723 --> 00:01:12,822
irgendwie extrem schwieriger als alles andere in den Computerwissenschaften.

20
00:01:12,822 --> 00:01:15,700
Den großen Spielern in der Industrie in diese Gebiet ist diese Wahrnehmung ganz recht;

21
00:01:15,700 --> 00:01:19,734
sie hilft, die riesige Anzahl ihrer sehr grundlegenden Patente zu rechtfertigen.

22
00:01:19,734 --> 00:01:23,870
Sie mögen das Image, dass ihre Medienforscher die besten der besten sind,

23
00:01:23,870 --> 00:01:27,738
so sehr viel schlauer als jeder andere, dass ihre brillanten Ideen

24
00:01:27,738 --> 00:01:29,903
von Normalsterblichen nicht verstanden werden können.

25
00:01:30,625 --> 00:01:33,716
Das ist kompletter Blödsinn.

26
00:01:35,205 --> 00:01:38,900
Digitaler Ton und Bild und Streaming und Kompression

27
00:01:38,900 --> 00:01:42,738
bieten endlos tiefe und anregende intellektuelle Herausforderungen,

28
00:01:42,738 --> 00:01:44,662
genau wie jedes andere Forschungsgebiet.

29
00:01:44,662 --> 00:01:47,929
Es scheint elitär, denn so wenige Menschen beschäftigen sich damit.

30
00:01:47,929 --> 00:01:51,223
Vielleicht haben sich so wenige Menschen dafür interessiert, da sich so wenige

31
00:01:51,223 --> 00:01:54,665
die teure Spezialausrüstung leisten konnten, die benötigt war.

32
00:01:54,665 --> 00:01:58,792
Aber heutzutage besitzt fast jeder, der dieses Video ansieht, einen billigen

33
00:01:58,792 --> 00:02:03,317
Universalcomputer, der die Fähigkeit hat, mit den großen Jungs zu spielen.

34
00:02:05,926 --> 00:02:11,108
Heutzutage gibt es Kämpfe um HTML5 und Browser

35
00:02:11,108 --> 00:02:13,671
und Video und offen gegen proprietär.

36
00:02:13,671 --> 00:02:17,048
Jetzt ist also ein ziemlich guter Zeitpunkt, sich damit zu beschäftigen.

37
00:02:17,048 --> 00:02:20,000
Den besten Start bekommt man wahrscheinlich indem man

38
00:02:20,000 --> 00:02:22,619
lernt, die Technologie die wir jetzt haben, zu verstehen.

39
00:02:23,500 --> 00:02:25,071
Dies ist eine Einführung.

40
00:02:25,071 --> 00:02:28,180
Da es eine Einführung ist, wird eine Tonne von Details nur angeschnitten,

41
00:02:28,180 --> 00:02:30,882
so dass das große Bild ein bisschen leichter zu sehen ist.

42
00:02:30,882 --> 00:02:33,908
Eine Menge Zuschauer werden längst jenseits dem Niveau sein,

43
00:02:33,908 --> 00:02:36,378
über das ich spreche, jedenfalls für den Moment.

44
00:02:36,378 --> 00:02:39,293
Auf der anderen Seite werde ich wahrscheinlich zu schnell sein

45
00:02:39,293 --> 00:02:44,558
für Leute, die dies zum aller ersten Mal hören - aber keine Panik.

46
00:02:44,558 --> 00:02:48,629
Das Wichtigste ist, Ideen mitzunehmen, die wirklich eure Phantasie anregen.

47
00:02:48,629 --> 00:02:52,497
Konzentriert euch speziell auf die Terminologie dieser Ideen,

48
00:02:52,479 --> 00:02:56,078
denn mit dieser und Google und Wikipedia kann man

49
00:02:56,078 --> 00:02:57,753
solange Details ausgraben wie das Interesse anhält.

50
00:02:57,753 --> 00:03:00,094
Also, ohne weitere Verzögerung,

51
00:03:00,094 --> 00:03:03,351
willkommen zu einem wahnsinnigen neuen Hobby.

52
00:03:10,291 --> 00:03:13,030
Ton ist die Übertragung von Druckwellen durch die Luft, welche sich von einer Quelle ausbreiten

53
00:03:13,030 --> 00:03:16,981
ähnlich wie Wellen um einen Stein, der in einen Teich geworfen wurde.

54
00:03:16,981 --> 00:03:19,489
Ein Mikrofon, oder in der Tat das menschliche Ohr,

55
00:03:19,489 --> 00:03:22,876
verwandeln diese vergänglichen Druckwellen in ein elektrisches Signal.

56
00:03:22,876 --> 00:03:25,800
Ok, das ist Realschul-Niveau in Physik - jeder sollte sich daran erinnern.

57
00:03:25,800 --> 00:03:26,771
Weiter geht's.

58
00:03:27,465 --> 00:03:32,527
Das resultierende Tonsignal ist eine ein-dimensionale Funktion, ein einziger Wert, der über die Zeit variiert,

59
00:03:32,527 --> 00:03:34,248
Wenn wir den Oszillator ein wenig verlangsamen...

60
00:03:36,450 --> 00:03:38,190
sollte das ein wenig leichter zu sehen sein.

61
00:03:38,190 --> 00:03:40,688
Einige andere Aspekt des Signals sind wichtig.

62
00:03:40,688 --> 00:03:43,418
Es ist kontinuierlich sowohl in Wert und Zeit;

63
00:03:43,418 --> 00:03:46,813
das heißt, zu jedem gegebenen Zeitpunk kann es jeden Realwert annehmen,

64
00:03:46,813 --> 00:03:50,228
und es gibt einen kontinuierlich sich ändernden Wert zu jedem Zeitpunkt.

65
00:03:50,228 --> 00:03:52,439
Egal wie sehr wir hinein-zoomen,

66
00:03:54,068 --> 00:03:58,510 
es gibt keine Diskontinuitäten, keine Singularitäten, keine Sprünge

67
00:03:58,510 --> 00:04:01,285
oder Punkte an denen das Signal nicht existiert.

68
00:04:03,247 --> 00:04:08,475
Es ist überall definiert. Klassische kontinuierliche Mathematik kann sehr gut auf diese Signale angewandt werden.

69
00:04:11,001 --> 00:04:15,378
Ein digitales Signal auf der anderen Seite ist diskret, sowohl in Wert und Zeit.

70
00:04:15,378 --> 00:04:19,107
In den einfachsten und üblichsten Systemen, Puls-Code-Modulation genannt (PCM),

71
00:04:19,107 --> 00:04:24,058
eines einer endlichen Anzahl möglicher Wert repräsentiert direkt die momentane Signalamplitude

72
00:04:24,058 --> 00:04:30,165
zu Zeitpunkten, die ein festes Intervall voneinander entfernt sind. Das Endergebnis ist ein Zahlenstrom.

73
00:04:30,674 --> 00:04:35,309
Das sieht dann ungefähr so aus.

74
00:04:35,309 --> 00:04:38,964
Intuitiv nehmen wir an, dass es möglich sein sollte die eine Form in die andere

75
00:04:38,964 --> 00:04:44,683
umwandeln zu können, und in der Tat, das Abtast-Theorem besagt, dass wir das können und sagt auch wie.

76
00:04:44,683 --> 00:04:48,477
Publiziert anerkannterweise by Claude Shannon in 1949

77
00:04:48,477 --> 00:04:52,409
und aufbauend auf der Arbeit von Nyquist, Hartley und vielen anderen,

78
00:04:52,409 --> 00:04:56,138
das Abtast-Theorem besagt, dass wir nicht nur hin und her gehen können zwischen

79
00:04:56,138 --> 00:05:00,913
analogen und digitalen Signalen, aber legt auch eine Anzahl Bedingungen fest unter denen

80
00:05:00,913 --> 00:05:06,779
die Konvertierung verlustfrei ist und die beiden Darstellungen äquivalent und austauschbar sind.

81
00:05:06,779 --> 00:05:10,601
Wenn die verlustfreien Bedingungen nicht erfüllt sind, sagt uns das Abtast-Theorem

82
00:05:10,601 --> 00:05:14,247
wie und wieviel Information verloren ging oder zerstört wurde.

83
00:05:14,900 --> 00:05:21,270
Bis vor Kurzem war die Analogtechnik die Grundlage für praktisch alles was mit Audio unternommen wurde,

84
00:05:21,270 --> 00:05:25,267
und der Grund war nicht, dass die Mehrzahl von Tonaufnahmen ursprünglich von einer analogen Quelle stammt.

85
00:05:25,267 --> 00:05:28,450
Man mag annehmen, dass - weil Computer noch sehr jung sind -

86
00:05:28,450 --> 00:05:31,643
analoge Signaltechnik zuerst existiert haben muss.

87
00:05:31,643 --> 00:05:34,428
Aber nein. Digital ist in tatsächlich älter.

88
00:05:34,428 --> 00:05:37,611
Der Telegraph kam ein halbes Jahrhundert vor dem Telefon

89
00:05:37,611 --> 00:05:41,951
und war bereits voll mechanisch automatisiert in den 1860ern, und schickte codierte,

90
00:05:41,951 --> 00:05:46,476
gemultiplexte, digitale Signale über weite Entfernung. Sie wissen schon … Tickertape.

91
00:05:46,476 --> 00:05:50,427
Harry Nyquist von den Bell Labs forschte über Telegraph-Pulseübertragung

92
00:05:50,427 --> 00:05:53,027
als er seine Beschreibung dessen was später Nyquist-Frequenz genannt wurde

93
00:05:53,027 --> 00:05:57,219
publizierte - das Kernkonzept des Abtast-Theorems.

94
00:05:57,219 --> 00:06:01,642
Natürlich hat der Telegraph symbolische Information übertragen, Text,

95
00:06:01,642 --> 00:06:06,883
nicht digitalisierte analoge Signale, aber mit der Einführung von Telefon und Radio,

96
00:06:06,883 --> 00:06:12,000
entwickelte sich die analoge und digitale Signaltechnik schnell und gemeinsam.

97
00:06:12,699 --> 00:06:18,732
Audio wurde immer als Analogsignal manipuliert, denn, hmm, nun, es ist so viel einfacher.

98
00:06:18,732 --> 00:06:23,257
Ein Tiefpassfilter zweiter Ordnung, zum Beispiel, benötigt zwei passive Komponenten.

99
00:06:23,257 --> 00:06:26,505
Eine rein-analoge Short-Time-Fouriertransformation braucht mehrere hundert.

100
00:06:26,505 --> 00:06:30,752
Nun, vielleicht tausend wenn man etwas wirklich Besonderes bauen möchte.

101
00:06:31,844 --> 00:06:35,989
Die Verarbeitung digitaler Signale benötigt Millionen oder Billionen von Transistoren,

102
00:06:35,989 --> 00:06:40,366
die auf Mikrowellenfrequenzen arbeiten, benötigt Hardwareunterstützung zumindest zum Digitalisieren

103
00:06:40,366 --> 00:06:43,836
und Rekonstruieren der analogen Signale, benötigt ein komplettes Software-Ökosystem

104
00:06:43,836 --> 00:06:47,362
zur Programmierung und Kontrolle des Billionen-Transistor-Molochs,

105
00:06:47,362 --> 00:06:51,091
benötigt digitalen Speicher nur für den Fall dass man irgendwelche der Bits später nochmals braucht…

106
00:06:51,091 --> 00:06:56,171
Wir kommen also zu der Schlussfolgerung, dass analog der einzige praktische Weg ist, viel mit Audio zu tun...

107
00:06:56,171 --> 00:07:07,019
nun, außer man hat zufällig eine Billion Transistoren und all die anderen Dinge herumliegen.

108
00:07:07,850 --> 00:07:12,660
Und da wir das nun alles haben wird die digitale Signalverarbeitung sehr attraktiv.

109
00:07:13,363 --> 00:07:18,906
Zum einen haben analoge Komponenten nicht die Flexibilität eines Universalcomputers.

110
00:07:18,906 --> 00:07:21,182
Eine neue Funktion zu diesem Moloch hinzuzufügen...

111
00:07:22,191 --> 00:07:24,578
hmm, das ist sehr unwahrscheinlich.

112
00:07:24,578 --> 00:07:26,567
Auf einem digitalen Prozessor allerdings…

113
00:07:28,668 --> 00:07:34,127
…schreib' einfach ein neues Programm. Software ist nicht trivial, aber es ist sehr viel einfacher.

114
00:07:34,127 --> 00:07:39,550
Vielleicht wichtiger ist dass jede analoge Komponente eine Annäherung ist.

115
00:07:39,550 --> 00:07:44,352
Es gibt keine perfekten Transistoren, oder einen perfekten Induktor oder einen perfekten Kondensator.

116
00:07:44,352 --> 00:07:51,569
Im Analogen fügt jede Komponente Geräusche und Verzerrungen hinzu - normalerweise nicht viel, aber es summiert sich.

117
00:07:51,569 --> 00:07:55,669
Allein die Übertragung von analogen Signalen, besonders über große Distanzen,

118
00:07:55,669 --> 00:08:00,434
nach und nach, messbar und unwiederbringlich zerstört es.

119
00:08:00,434 --> 00:08:06,513
Im Übrigen nehmen all diese analogen Einzelzweck-Komponenten viel Raum ein.

120
00:08:06,513 --> 00:08:09,946
Zwei Programmzeilen auf den Billionen Transistoren hier hinten

121
00:08:09,946 --> 00:08:14,702
können einen Filter implementieren, der eine Spule der Größe eines Kühlschranks brauchen würde.

122
00:08:14,702 --> 00:08:17,941
Digitale Systeme haben nicht diese Nachteile.

123
00:08:17,941 --> 00:08:24,335
Digitale Signale können gespeichert, kopiert, manipuliert und übertragen werden ohne irgendwelche Geräusche oder Verzerrungen hinzuzufügen.

124
00:08:24,335 --> 00:08:26,889
Wir nutzen verlustbehaftete Algorithmen ab und zu,

125
00:08:26,889 --> 00:08:31,284
aber die einzigen unvermeidbar suboptimalen Schritte sind Digitalisierung und Rekonstruktion,

126
00:08:31,284 --> 00:08:35,929
wo Digital mit all dem unordentlichen Analogen interagieren muss.

127
00:08:35,929 --> 00:08:40,750
Unordentlich oder nicht - moderne Konvertierungsschritte sind sehr sehr gut.

128
00:08:40,750 --> 00:08:45,849
Nach den Standards die unsere Ohren setzen, können wir sie auch als praktisch verlustfrei ansehen.

129
00:08:45,849 --> 00:08:50,429
Dann, mit ein wenig zusätzlicher Hardware - zumeist jetzt klein und billig 

130
00:08:50,429 --> 00:08:55,379
wegen unserer modernen industriellen Infrastruktur - ist digitales Audio der offenbare Gewinner über analog.

131
00:08:55,379 --> 00:09:00,857
Also lasst es uns dann speichern, kopieren, manipulieren, und übertragen. 

132
00:09:04,956 --> 00:09:08,639
Pulscode-Modulation ist die üblichste Darstellung für rohe Audiodaten.

133
00:09:08,639 --> 00:09:13,867
Andere praktische Darstellungen existieren, zum Beispiel die Sigma-Delta-Kodierung, die von SACD benutzt wird,

134
00:09:13,867 --> 00:09:16,625
die eine Art Pulsdichte-Modulation darstellt.

135
00:09:16,625 --> 00:09:19,687
Dennoch ist die Pulscode-Modulation bei weitem dominierend,

136
00:09:19,687 --> 00:09:22,158
besonders weil sie mathematisch so bequem ist.

137
00:09:22,158 --> 00:09:26,350
Ein Audio-Ingenieur kann eine gesamte Karriere verleben ohne je etwas anderes zu sehen.

138
00:09:26,350 --> 00:09:29,135
Die PCM-Kodierung kann man durch drei Parameter charakterisieren,

139
00:09:29,135 --> 00:09:34,187
welches uns erlaubt, jede mögliche PCM Variante mit glücklicherweise wenigem Aufwand handzuhaben.

140
00:09:34,187 --> 00:09:36,426
Der erste Parameter ist die Abtastrate.

141
00:09:36,426 --> 00:09:40,886
Die höchste Frequenz, die eine Kodierung darstellen kann, heißt Nyquist-Frequenz.

142
00:09:40,886 --> 00:09:45,124
Die Nyquist-Frequenzy von PCM ist zufällig genau die Hälfte der Abtastrate.

143
00:09:45,124 --> 00:09:51,389
Deshalb bestimmt die Abtastrate direkt die höchste mögliche Frequenz in einem digitalisierten Signal.

144
00:09:51,389 --> 00:09:56,515
Analoge Telefonsystems begrenzten traditionell die Frequenzbänder von Sprachkanälen auf unter 4kHz,

145
00:09:56,515 --> 00:10:02,224
weshalb die digitale Telefonie und die meisten klassischen Sprachanwendungen eine 8kHz Abtastrate verwenden,

146
00:10:02,224 --> 00:10:07,277
welches die minimale Abtastrate ist, die benötigt wird, um die gesamte Bandbreite eines 4kHz Kanals zu erfassen.

147
00:10:07,227 --> 00:10:14,263
So hört sich ein Audiosignal mit 8kHz Abtastrate an --- ein wenig dumpf, aber vollkommen erfassbar für Sprache. 

148
00:10:17,263 --> 00:10:18,149
Dies ist die niedrigste Abtastrate, die jemals praktisch breit eingesetzt wurde.

149
00:10:18,149 --> 00:10:23,322
Von hier, mit dem Anstieg an CPU Stärke und Hauptspeicher, und Speicherplatz für Heimcomputer-Hardware,

150
00:10:23,322 --> 00:10:29,642
ging es zu 11, dann 16, und dann 22, und schließlich 32kHz Abtastrate.

151
00:10:29,642 --> 00:10:33,491
Mit jedem Anstieg in der Abtastrate und der Nyquist-Frequenz steht fest,

152
00:10:33,491 --> 00:10:38,302
dass das obere Ende ein wenig ein wenig klarer und der Sound natürlicher wird.

153
00:10:38,301 --> 00:10:44,576
Die CD benutzt eine Abtastrate von 44.1kHz, welche wiederum ein wenig besser ist als 32kHz,

154
00:10:44,576 --> 00:10:46,788
aber der Gewinn wird immer geringer.

155
00:10:46,788 --> 00:10:52,053
44.1kHz ist eine etwas komische Wahl, besonders da es vor der CD für nichts anderes benutzt worden war,

156
00:10:52,053 --> 00:10:56,559
aber der riesige Erfolg der CD hat es eine übliche Rate gemacht.

157
00:10:56,559 --> 00:11:01,195
Die üblichste Abtastrate für HiFi (hohe Qualität) neben der CD ist 48kHz.

158
00:11:05,710 --> 00:11:08,597
Es gibt praktisch keinen hörbaren Unterschied zwischen den beiden.

159
00:11:08,597 --> 00:11:13,640
Dieses Video, oder zumindest seine Originalversion, wurde mit 48kHz Audio aufgenommen und produziert,

160
00:11:13,640 --> 00:11:18,545
welches im Übrigen der Originalstandard für HiFi Audio für Video ist.

161
00:11:18,545 --> 00:11:25,100
Super-Hi-Fi Abtasteten von 88, 96, und 192kHz gibt es auch.

162
00:11:25,100 --> 00:11:30,888
Der Grund für Abtasteten oberhalb von 48kHz ist allerdings nicht die Erweiterung der hörbaren Frequenzen.

163
00:11:30,888 --> 00:11:32,489
Es gibt einen anderen Grund.

164
00:11:32,896 --> 00:11:37,319
Um nochmals auf die Theorie zurückzukommen: der französische Mathematiker Jean Baptiste Joseph Fourier

165
00:11:37,319 --> 00:11:42,353
hat gezeigt, dass wir Audiosignale auch als eine Ansammlung von Frequenzkomponenten betrachten können.

166
00:11:42,353 --> 00:11:45,841
Diese Frequenzbereichsdarstellung ist äquivalent zu der Zeitbereichsdarstellung;

167
00:11:45,841 --> 00:11:49,719
das Signal ist exakt das gleiche, wir sehen es nur von einem anderen Standpunkt.

168
00:11:49,719 --> 00:11:56,131
Hier sehen wir die Frequenzbereichsdarstellung eines hypothetischen Analogsignals, das wir digitalisieren wollen.

169
00:11:56,131 --> 00:11:59,888
Das Abtast-Theorem gibt uns zwei grundlegende Informationen über den Abtastprozess.

170
00:11:59,888 --> 00:12:04,727
Zuerst besagt es, dass ein Digitalsignal keine Frequenzen oberhalb der Nyqauist-Frequenz darstellen kann.

171
00:12:04,727 --> 00:12:10,640
Dann besagt es - und dies ist der neue Teil - dass, wenn wir diese hohen Frequenzen nicht mit einem Tiefpassfilter löschen

172
00:12:10,640 --> 00:12:16,414
bevor wir Abtasten, der Abtastprozess sie in den darstellbaren Frequenzbereich als Aliasing-Verzerrung falten wird.

173
00:12:16,414 --> 00:12:20,069
Aliasing hört sich wirklich schrecklich an,

174
00:12:20,069 --> 00:12:25,242
so ist es absolut notwendig, alle Frequenzen oberhalb der Nyquist-Frequenz vor dem Abtasten und nach der Rekonstruktion zu löschen.

175
00:12:25,871 --> 00:12:31,265
Es ist anerkannt, dass die menschliche Frequenzwahrnehmung bis ungefähr 20kHz reicht.

176
00:12:31,265 --> 00:12:37,548
Für 44.1 oder 48kHz Abtastrate muss der Tiefpassfilter vor dem Abtasten sehr genau sein,

177
00:12:37,548 --> 00:12:42,101
um das Löschen von hörbaren Frequenzen unter 20kHz zu vermeiden,

178
00:12:42,101 --> 00:12:49,439
aber dennoch keine Frequenzen oberhalb von Nyquist in den Abtastprozess einfließen zu lassen.

179
00:12:49,439 --> 00:12:55,342
Es ist schwierig, einen solchen Filter zu bauen und kein praktischer Filter erreicht das vollständig.

180
00:12:55,342 --> 00:13:00,024
Auf der anderen Seite, wenn die Abtastrate 96kHz oder 192kHz ist,

181
00:13:00,024 --> 00:13:07,223
hat der Tiefpassfilter eine zusätzliche Oktave oder zwei für sein Übergangsband. Das ist ein sehr viel einfacherer Filter.

182
00:13:07,223 --> 00:13:14,348
Abtastraten oberhalb von 48kHz sind tatsächlich einer der schmutzigen Kompromisse für Analogsignale.

183
00:13:15,014 --> 00:13:20,844
Der zweite grundlegende PCM Parameter ist das Format des Abtastwertes, d.h. jeder einzelnen digitalen Zahl.

184
00:13:20,844 --> 00:13:26,285
Eine Zahl ist eine Zahl, aber eine Zahl kann mit Bits auf verschiedene Arten dargestellt werden.

185
00:13:26,942 --> 00:13:30,902
Frühe PCM Werte waren 8 Bit linear, kodiert als vorzeichenfreies Byte.

186
00:13:30,902 --> 00:13:37,028
Die Dynamikwerte sind auf 50dB beschränkt und das Quantisierungsgeräusch, wie man hören kann, ziemlich schwerwiegend.

187
00:13:37,028 --> 00:13:39,970
Acht Bit lineares Audio ist heutzutage vernachlässigbar selten.

188
00:13:41,007 --> 00:13:47,484
Die digitale Telefonie benutzt typischerweise eine von zwei verwandten, nicht-linearen 8-Bit Kodierungen, A-law und u-law genannt.

189
00:13:47,484 --> 00:13:51,287
Diese Formate kodieren ungefähr 14 bit Dynamikwerte in 8 bit,

190
00:13:51,287 --> 00:13:54,674
indem die höheren Amplitudenwerte mit größerem Abstand erfasst werden.

191
00:13:54,674 --> 00:13:59,226
A-law und u-law verbessern offenbar das Quantisierungsgeräusch im Vergleich zu 8-Bit linear,

192
00:13:59,226 --> 00:14:03,557
und besonders die Sprach-Harmonischen verstecken das übrige Quantisierungsgeräusch gut.

193
00:14:03,557 --> 00:14:08,248
Alle drei 8 Bit Kodierungen - linear, a-law und mu-law - werden typischerweise

194
00:14:08,248 --> 00:14:13,328
mit einer 8kHz Abtastrate kombiniert, obwohl ich sie hier mit 48kHz zeige.

195
00:14:13,328 --> 00:14:18,491
Die meiste moderne PCM benutzt 16 oder 24 Bit 2er-Komplement vorzeichenbehaftete ganze Zahlen,

196
00:14:18,491 --> 00:14:23,858
um die Werte von negativ unendlich bis Null Dezibel mit 16 oder 24 Bit Genauigkeit zu kodieren.

197
00:14:23,858 --> 00:14:27,800
Der maximale Absolutwert entspricht Null Dezibel.

198
00:14:27,800 --> 00:14:31,584
Wie mit allen Abtastformaten bisher werden Signale oberhalb von Null Dezibel -

199
00:14:31,584 --> 00:14:35,619
und deshalb oberhalb des maximalen darstellbaren Bereichs - abgeschnitten (geclippt).

200
00:14:35,619 --> 00:14:41,199
Beim Mixen und Mastern ist es nicht unüblich, dass Realwerte für PCM benutzt werden anstatt ganzer Zahlen.

201
00:14:41,199 --> 00:14:47,222
Ein 32 Bit IEEE754 Realwert - das sind normale Realzahlen wie sie in üblichen Computern benutzt werden -

202
00:14:47,222 --> 00:14:52,793
hat 24 Bit Auflösung, aber ein 7 Bit Realwert-Exponent erweitert den darstellbaren Bereich.

203
00:14:52,793 --> 00:14:57,040
Realwerte stellen normalerweise Null Dezibel als +/-1.0 dar,

204
00:14:57,040 --> 00:15:00,547
und weil Realwerte offenbar weit darüber hinaus Werte annehmen können,

205
00:15:00,547 --> 00:15:05,220
verursacht das temporäre Überschreiten von Null Dezibel während des Mischprozesses kein Clipping.

206
00:15:05,220 --> 00:15:11,077 
Realwert PCM nimmt mehr Platz ein, weshalb es generell nur als Zwischenformat in der Produktion verwendet wird.

207
00:15:11,077 --> 00:15:15,796
Die meisten generellen Computer lesen und schreiben noch immer Daten in 8-bit Bytes,

208
00:15:15,796 --> 00:15:18,489
so ist es schließlich wichtig, nicht zu vergessen, dass Werte, die größer als 8 Bit sind

209
00:15:18,489 --> 00:15:22,838
in Big oder Little Endian Byteordnung dargestellt werden können, und beide Endianformen sind üblich.

210
00:15:22,838 --> 00:15:28,751
Zum Beispiel sind Microsoft WAV Dateien in Little Endian und Apple AIFC Files generell in Big Endian.

211
00:15:28,751 --> 00:15:30,139
Also aufgepasst.

212
00:15:30,870 --> 00:15:34,071
Der dritte PCM Parameter ist die Anzahl Kanäle.

213
00:15:34,071 --> 00:15:38,485
Die Konvention mit rohem PCM ist dass mehrere Kanäle durch Interleaving von Werten

214
00:15:38,485 --> 00:15:43,398
aller Kanäle in einen einzigen Strom kodiert werden. Einfach und erweiterbar.

215
00:15:43,398 --> 00:15:47,701
Und das ist alles! Das beschreibt alle jemals existierenden PCM Repräsentation.

216
00:15:47,701 --> 00:15:51,578
Fertig. Digitales Audio ist _so_einfach_!

217
00:15:51,578 --> 00:15:56,436
Es gibt natürlich mehr zu tun, aber wir haben jetzt ein nützliches Stück Audiodaten zusammen,

218
00:15:56,436 --> 00:15:58,092
also lasst uns uns jetzt dem Video zuwenden.

219
00:16:02,571 --> 00:16:08,798
Man könnte sich Video als Audio mit zwei zusätzlichen räumlichen Dimensionen, X und Y, vorstellen,

220
00:16:08,798 --> 00:16:12,787
zusätzlich zu der Zeitdimension. Das ist mathematisch korrekt.

221
00:16:12,787 --> 00:16:19,097
Das Abtast-Theorem gilt für alle drei Video-Dimensionen ebenso wie es für die Zeitdimension von Audio gilt.

222
00:16:19,097 --> 00:16:25,815
Audio und Video sind alerdings ziemlich verschieden in Praxis. Zum Einen ist Video riesig im Vergleich zu Audio.

223
00:16:25,815 --> 00:16:29,294
Rohe CD-Daten sind ungefähr 1.4 Megabit pro Sekunde.

224
00:16:29,294 --> 00:16:33,958
Rohes 1080i HD Video ist mehr als 700 Megabit pro Sekunde.

225
00:16:33,958 --> 00:16:40,056
Das sind mehr als 500 Mal mehr Daten zu erfassen, verarbeiten und speichern pro Sekunde.

226
00:16:40,056 --> 00:16:43,711
Nach Moore's Gesetz… sind das… mal sehen… ungefähr 8 Verdoppelungen Mal zwei Jahre,

227
00:16:43,711 --> 00:16:47,838
also ja, Computer benötigen ungefähr zusätzlich 15 Jahre um rohes Video zu handhaben

228
00:16:47,838 --> 00:16:51,252
nachdem wir gerade rohes Audio richtig hinbekommen haben.

229
00:16:51,252 --> 00:16:55,425
Einfaches rohes Video ist auch komplexer als einfaches rohes Audio.

230
00:16:55,425 --> 00:16:58,599
Die riesige Datenvolumen verlangt im Moment eine Repräsentation,

231
00:16:58,599 --> 00:17:02,106 
die effizienter ist als lineares PCM für Audio.

232
00:17:02,106 --> 00:17:06,705
Zusätzlich stammt elektronisches Video fast ausschließlich vom Fernsehen ab

233
00:17:06,705 --> 00:17:13,423
und die Standard-Kommittees, die digitales Video betreffen, haben sich immer um Rückwärts-Kompatibilität gekümmert.

234
00:17:13,423 --> 00:17:17,559  
In den USA konnte bis letztes Jahr ein 60 Jahre alter Schwarz/Weiß-Fernseher

235
00:17:17,559 --> 00:17:21,038
noch immer eine normale analoge Fernsehsendung zeigen.

236
00:17:21,038 --> 00:17:23,879
Das ist tatsächlich ein richtig cooler Trick.

237
00:17:23,879 --> 00:17:28,718
Der Nachteil von Rückwärts-Kompatibilität ist dass wenn ein Detail einmal im Standard ist,

238
00:17:28,718 -->  00:17:30,985
kann man es nie wieder herausnehmen.

239
00:17:30,985 --> 00:17:37,305
Elektronisches Video hat nie von vorne begonnen in der selben Art wie Audio es mehrfach tat.

240
00:17:37,305 --> 00:17:43,958
60 Jahre voll mit schlauen aber überflüssigen Hacks benötigt wegen der vergänglichen Technologie einer gegebenen Zeit

241
00:17:43,958 --> 00:17:50,102
haben sich ziemlich angehäuft, und weil digitale Standards auch vom Fernsehen stammen,

242
00:17:50,102 --> 00:17:54,664
werden all diese schauerlichen Hacks auch in digitale Standards eingebracht.

243
00:17:54,664 --> 00:18:00,022
Kurz gesagt, es gibt eine ganze Menge mehr Details mit digitalem Video als mit Audio.

244
00:18:00,022 --> 00:18:05,592
Es besteht keine Hoffnung, sie hier alle komplett zu beschreiben, so werden wir nur die Grundlagen beschreiben.

245
00:18:06,036 --> 00:18:10,857
Die offensichtlichsten rohen Video Parameter sind die Breite und Höhe der Bilder in Pixel.

246
00:18:10,857 --> 00:18:15,882
So einfach wie es sich anhört, spezifizieren die Pixel-Dimensionen allein allerdings nicht die absolute

247
00:18:15,882 --> 00:18:22,016
Breite und Höhe der Bilder, denn die meisten vom Fernsehen stammenden Videos benutzen keine quadratischen Pixel.

248
00:18:22,016 --> 00:18:25,005
Die Anzahl Scanlinien in einem Fernsehbild war fest,

249
00:18:25,005 --> 00:18:29,021
aber die effektive Anzahl horizontaler Pixel war eine Funktion der Kanalbandbreite.

250
00:18:29,021 --> 00:18:31,945
Effektive horizontale Auflösung konnte in Pixel resultieren, die entweder enger

251
00:18:31,945 --> 00:18:35,489
oder weiter waren als der Abstand zwischen den Scanlinien.

252
00:18:35,489 --> 00:18:38,395
Standards haben generell spezifiziert, dass digital abgetastetes Video

253
00:18:38,395 --> 00:18:41,902
die tatsächliche Auflösung der originalen analogen Quelle reflektieren sollte,

254
00:18:41,902 --> 00:18:45,566
also benutzt eine große Zahl digitaler Videos auch nicht-quadratische Pixel.

255
00:18:45,566 --> 00:18:49,924
Zum Beispiel ist eine normales 4:3 Aspektverhältnis NTSC DVD typisch kodiert

256
00:18:49,924 --> 00:18:55,374
mit einer Bildauflösung von 704 auf 480, ein Verhältnis breiter als 4:3.

257
00:18:55,374 --> 00:18:59,640
In diesem Fall wird den Pixeln selbst ein Aspektverhältnis von 10:11 zugewiesen,

258
00:18:59,640 --> 00:19:04,553
welches sie höher macht als breit und das Bild horizontal enger, um das Aspektverhältnis zu korrigieren.

259
00:19:04,553 --> 00:19:09,800
Solch ein Bild muss erneut abgetastet werden, um ein vernünftiges digitales Display mit quadratischen Pixeln zu zeigen.

260
00:19:10,253 -->  00:19:15,287
Der zweiter offensichtliche Videoparameter ist die Bidrate - die Anzahl kompletter Bilder pro Sekunde.

261
00:19:15,287 --> 00:19:19,655
Mehrere Standard-Bildraten werden heute aktiv benutzt. Digitales Video - in der einen oder anderen Form -

262
00:19:19,655 --> 00:19:23,689
kann alle unterstützen. Oder jede andere Bildrate. Oder sogar variable Raten,

263
00:19:23,689 --> 00:19:27,113
bei denen die Bildrate sich über den Verlauf des Videos verändert.

264
00:19:27,113 --> 00:19:32,998
Je höher die Bildrate, desto flüssiger ist die Bewegung und das bringt uns leider zum Zeilenspringverfahren (Interlacing).

265
00:19:32,998 --> 00:19:37,967
In den ersten Tagen des Fernsehens haben Ingenieure nach der schnellsten praktischen Bildrate

266
00:19:37,967 --> 00:19:42,075
für flüssige Bewegung gesucht und um das Flickern der Phoshpor-basierten CRTs zu minimieren.

267
00:19:42,075 --> 00:19:45,277
Sie standen außerdem unter Druck, die geringste mögliche Bandbreite

268
00:19:45,277 --> 00:19:48,182
mit der höchsten Auflösung und schnellsten Bildrate zu finden.

269
00:19:48,182 --> 00:19:51,208
Ihre Lösung war das Interlacing von Video, wobei die geraden Linien

270
00:19:51,208 --> 00:19:54,826
in einem Moment geschickt werden und die ungeraden Linien im nächsten.

271
00:19:54,826 --> 00:19:59,961
Jeder Durchgang wird ein Feld genannt und zwei Felder produzieren quasi ein komplettes Bild.

272
00:19:59,961 --> 00:20:05,319
"Quasi" - denn die geraden und ungeraden Felder sind nicht eigentlich vom selben Ursprungsbild.

273
00:20:05,319 --> 00:20:10,797
In einem 60-Felder-pro-Sekunde Film ist die Bildrate eigentlich 60 volle Bilder pro Sekunde,

274
00:20:10,797 --> 00:20:15,386
und die Hälfte jedes Bildes - jede zweite Linke - wird einfach weggeworfen.

275
00:20:15,386 --> 00:20:20,272
Deshalb können wir nicht einfach ein Video ent-interlacen indem wir zwei Felder in ein Bild kombinieren;

276
00:20:20,272 --> 00:20:23,039
sie sind in der Tat ursprünglich nicht vom selben Bild.

277
00:20:24,047 --> 00:20:29,683
Die Kathodenstrahlröhre war die einzige verfügbare Anzeigetechnologie während des größten Teils der Geschichte des elektronischen Videos.

278
00:20:29,683 --> 00:20:32,949
Die Ausgabehelligkeit eines CRTs ist nicht-linear und entspricht ungefähr

279
00:20:32,949 --> 00:20:36,585
der eingangssteuernden Spannung hoch 2.5.

280
00:20:36,585 --> 00:20:43,821
Der Exponent - 2.5 - ist das designierte Gamma und so wird es oft das Gamma des Monitors genannt.

281
00:20:43,821 --> 00:20:50,493
Kameras sind allerdings linear, und wenn man ein lineares Eingabesignal einem CRT gibt, sieht es ein wenig so aus.

282
00:20:51,270 --> 00:20:56,637
Das es ursprünglich sehr wenige Kameras gab, die außerdem fantastisch teuer waren,

283
00:20:56,637 --> 00:21:01,634
und man viele, viele Fernseher erwartete, die am besten so billig wie möglich sein sollten,

284
00:21:01,634 --> 00:21:08,222
haben die Ingenieure entschieden, die nötige Gamma-Korrektur-Schaltung der Kamera hinzuzufügen anstatt den Fernsehgeräten.

285
00:21:08,222 --> 00:21:13,062
Video, das über Luftwellen übertragen wurde, hatte deshalb nicht-lineare Lichtstärke, das inverse

286
00:21:13,062 --> 00:21:18,271
des Gamma Exponenten des Fernsehgeräts, so dass wenn ein Kamerasignal endlich auf einem CRT dargestellt wird,

287
00:21:18,271 --> 00:21:23,305
die Gesamtantwort des Systems von Kamera zum Fernsehgerät wieder linear war.

288
00:21:23,777 --> 00:21:25,118
Fast.

289
00:21:30,393 --> 00:21:33,113
Es gibt noch zwei andere Verbesserungen.

290
00:21:33,113 --> 00:21:40,442
Eine Fernsehkamera benutzt in der Tat einen Gamma-Exponenten, der das Inverse von 2.2 ist und nicht 2.5.

291
00:21:40,442 --> 00:21:43,754
Das ist eine Korrektur um in einer dunklen Umgebung zu sehen.

292
00:21:43,754 --> 00:21:48,279
Auch gehen die Exponentialkurven in eine lineare Rampe in der Nähe von Schwarz über.

293
00:21:48,279 --> 00:21:52,360
Das ist nur eine alte Notlösung um Sensorengeräusche in der Kamera zu unterdrücken.

294
00:21:54,941 --> 00:21:57,347
Die Gamma-Korrektur hat noch einen glücklichen Seiteneffekt.

295
00:21:57,347 --> 00:22:02,214
Zufällig hat das menschliche Auge einen Wahrnehmungs-Gamma von ungefähr 3.

296
00:22:02,214 --> 00:22:05,962
Das ist ziemlich nah an dem CRT Gamma von 2.5.

297
00:22:05,962 --> 00:22:10,607
Ein Bild, das Gamma-Korrektur benutzt gibt mehr Auflösung den niedrigeren Intensitäten,

298
00:22:10,607 --> 00:22:14,336
wo das Auge zufällig seine genaueste Intensitätsauflösung hat,

299
00:22:14,336 --> 00:22:18,222
und deshalb die verfügbare Skalenauflösung genauer benutzt.

300
00:22:18,222 --> 00:22:22,784
Obwohl CRTs momentan am verschwinden sind, benutzt ein Standard sRGB Computermonitor

301
00:22:22,784 --> 00:22:28,419
noch immer eine nicht-lineare Intensitätskurve ähnlich wie das Fernsehen, mit einer linearen Rampe in der Nähe von Schwarz,

302
00:22:28,419 --> 00:22:32,491
gefolgt von einer Exponentialkurve mit einem Gamma-Exponenten von 2.4.

303
00:22:32,491 --> 00:22:36,636
Das kodiert eine 16-bit lineares Band auf 8 Bit herunter.

304 
00:22:37,580 --> 00:22:41,790
Das menschliche Auge hat drei offenbare Farbkanäle: rot, grün und blau,

305
00:22:41,790 --> 00:22:47,407
und die meisten Monitore benutzen diese drei Farben als additive Primärfarben, um die volle Breite der Farben zu produzieren.

306
00:22:49,258 --> 00:22:54,190
Die primären Pigmente in Druckfarben sind Cyan, Magenta, und Gelb aus den gleichen Gründen;

307
00:22:54,190 --> 00:22:59,381
Pigmente sind subtraktiv, und jedes dieser Pigmente subtrahiert eine reine Farbe vom reflektierten Licht.

308
00:22:59,381 --> 00:23:05,682
Cyan subtrahiert rot, magenta subtrahiert grün, und gelb subtrahiert blau.

309
00:23:05,682 --> 00:23:10,919
Video kann und manchmal wird mit rot, grün und blauen Kanälen dargestellt,

310
00:23:10,919 --> 00:23:17,211
aber RGB Video ist atypisch. Das menschliche Auge ist sehr viel sensibler auf Helligkeit als auf Farbe,

311
00:23:17,211 --> 00:23:21,329
und RGB verteilt die Energie eines Bildes über alle Farbkanäle.

312
00:23:21,329 --> 00:23:25,326
Das heißt, die rote Eben sieht aus wie eine rote Version des Originalbildes,

313
00:23:25,326 --> 00:23:28,769
die grüne Ebene sieht aus wie eine grüne Version des Originalbildes,

314
00:23:28,769 --> 00:23:32,063
und die blaue Ebene sieht aus wie eine blaue Version des Originalbildes.

315
00:23:32,063 --> 00:23:35,705
Schwarz und weiß drei mal. Nicht effizient.

316
00:23:35,706 --> 00:23:39,438
Aus diesen Gründen und weil, oh hey, Fernsehen sowieso zufällig 

317
00:23:39,438 --> 00:23:45,017
als schwarz und weiß angefangen hat, wird Video üblicherweise als hochauflösender Helligkeitskanal,

318
00:23:45,017 --> 00:23:51,041
als schwarz und weiß dargestellt, zusammen mit zusätzlichen, zumeist niedriger aufgelösten Chroma-Kanälen, den Farben.

319
00:23:51,041 --> 00:23:57,074
Der Helligkeitskanal, Y, ist produziert indem man die separaten rot, grün und blauen Signale gewichtet und dann addiert.

320
00:23:57,074 --> 00:24:01,867
Die Farbkanäle U und V sind dann produziert indem man das Helligkeitssignal von blau

321
00:24:01,867 --> 00:24:04,070
und das Farbsignal von rot abzieht.

322
00:24:04,070 --> 00:24:11,750
Wenn YUV skaliert, versetzt und quantisiert wird für digitales Video, wird es korrekterweise Y'CbCr genannt,

323
00:24:11,750 --> 00:24:15,238
aber der generellere Ausdruck YUV wird weitgehend benutzt, um 

324
00:24:15,238 --> 00:24:18,301
all die analogen und digitalen Varianten dieses Farbmodells zu beschreiben.

325
00:24:18,912 --> 00:24:22,983
Die U und V Farbkanäle können die selbe Auflösung haben wie der Y Kanal,

326
00:24:22,983 --> 00:24:28,674
aber weil das menschliche Auge eine viel geringere räumliche Farbauflösung als räumliche Helligkeitsauflösung hat,

327
00:24:28,674 --> 00:24:34,346
wird normal die Farbauflösung halbiert oder sogar geviertelt in der horizontalen und/oder der vertikalen

328
00:24:34,346 --> 00:24:39,528
Richtung, üblicherweise ohne signifikanten Einfluss auf die rohe Bildqualität.

329
00:24:39,528 --> 00:24:43,942
Praktisch jede mögliche Unterabtastungs-Variante ist schon einmal eingesetzt worden,

330
00:24:43,942 --> 00:24:46,875
aber die üblichen Wahlen heutzutage sind

331
00:24:46,875 --> 00:24:51,187
4:4:4 Video, welches tatsächlich nicht unterabgetastet ist,

332
00:24:51,187 --> 00:24:56,711
4:2:2 Video, in welchem die horizontale Auflösung der U und V Kanäle halbiert ist, 

333
00:24:56,711 --> 00:25:02,587
und am üblichsten von allen, 4:2:0 Video, in welchem sowohl die horizontale als auch die vertikale Auflösung

334
00:25:02,587 --> 00:25:08,897
der Farbkanäle halbiert ist, was in U und V Ebenen resultiert, die beide ein Viertel der Grösse von Y sind.

335
00:25:08,897 --> 00:25:17,096
Die Ausdrücke 4:2:2, 4:2:0, 4:1:1 und so weiter sind nicht komplette Beschreibungen der Farb-Unterabtastung.

336
00:25:17,096 --> 00:25:21,186
Es gibt viele Möglichkeiten, die Farbpixel im Verhältnis zur Helligkeit zu positionieren,

337
00:25:21,096 --> 00:25:24,776
und wiederum werden viele Möglichkeiten für jede Unterabtastungs-Variante aktiv benutzt.

338
00:25:24,776 --> 00:25:32,502
Zum Beispiel, motion JPEG, MPEG-1 Video, MPEG-2 Video, DV, Theora und WebM benutzen alle

339
00:25:32,502 --> 00:25:38,137
oder können alle 4:2:0 benutzen, aber sie positionieren die Farbpixel auf drei verschiedene Arten.

340
00:25:38,498 --> 00:25:43,023
Motion JPEG, MPEG1 Video, Theora und WebM positionieren die Farbpixel

341
00:25:43,023 --> 00:25:46,345
zwischen den Helligkeits-Pixeln, sowohl horizontal als auch vertikal.

342
00:25:46,345 --> 00:25:51,989
MPEG2 Video positionier Farbpixel zwischen Linien, aber horizontal sind sie mit jedem zweiten Helligkeitspixel bündig.

343
00:25:51,989 --> 00:25:57,106
Das Zeilensprungverfahren macht das Ganze noch etwas komplizierter und resultiert in einem Arrangement das ein wenig bizarr ist.

344
00:25:57,106 --> 00:26:00,909
Und schliesslich PAL-DV, welches immer interlaced ist, platziert die Farbpixel

345
00:26:00,909 --> 00:26:04,398
in der selben Position wie jedes zweite Helligkeitspxiel in der horizontalen Richtung,

346
00:26:04,398 --> 00:26:07,303
alterniert Farbkanäle vertikal in jeder Zeile.

347
00:26:07,683 --> 00:26:12,282
Das war nur 4:2:0 Video. Ich überlasse die anderen Unterabtastungen als Hausarbeit dem Zuschauer.

348
00:26:12,282 --> 00:26:14,882
Die Grundidee ist beschrieben - weiter geht's.

349
00:26:15,511 --> 00:26:21,128
In Audio repräsentieren wir immer mehrere Kanäle in einem PCM Strom indem die Werte von jedem

350
00:26:21,128 --> 00:26:26,383
Kanal in der selben Reihenfolge abgewechselt werden. Video benutzt sowohl gepackte Formate, welche die Farbkanäle abwechselt,

351
00:26:26,383 --> 00:26:30,584
als auch ebene Formate, welche die Pixel von jedem Kanal in verschiedenen Ebenen zusammenhält

352
00:26:30,584 --> 00:26:35,415
und in ihrer Reihenfolge im Bild stapelt. Es gibt mindestens 50 verschiedene Formate in diesen zwei groben Kategorien

353
00:26:35,415 --> 00:26:41,549
mit vielleicht 10 oder 15 üblichen. Jeder Farb-Unterabtastung und verschiedene Bit-Tiefe benötigt

354
00:26:41,549 --> 00:26:46,574
eine andere gepackte Anordnung, und so ein anderes Pixelformat. Für eine gegebene einzigartige Unterabtastung

355
00:26:46,574 --> 00:26:50,858
gibt es normalerweise auch mehrere äquivalente Formate, die aus trivialen Änderungen der Kanalandordnung
there are usually also several equivalent formats that consist of trivial channel order 

356
00:26:50,858 --> 00:26:55,966
oder Umpackungen bestehen, entweder aus ursprünglicher Bequemlichkeit auf einer speziellen

357
00:26:55,966 --> 00:27:00,352
Hardware oder manchmal nur aus guter alter Bosheit.

358
00:27:00,352 --> 00:27:04,692
Pixelformate werden durch einen eindeutigen Namen oder fourcc Code beschrieben.

359
00:27:04,692 --> 00:27:08,115
Es gibt eine Menge dieser und es macht keinen Sinn alle durchzugehen.

360
00:27:08,115 --> 00:27:13,704
Google ist Dein Freund. Achte drauf, dass fourcc Codes für Video-Rohdaten die Pixelanordnung und

361
00:27:13,704 --> 00:27:20,339
die Farbunterabtastung angeben, aber generell nichts bestimmtes über Farbplazierung und den Farbraum aussagen.

362
00:27:20,339 --> 00:27:25,807
Um eines zu wählen: YV12 video kann JPEG, MPEG-2 oder DV Farbplazierung verwenden,

363
00:27:25,807 --> 00:27:28,991
und eine von mehreren YUV Farbraum-Definitionen.

364
00:27:29,472 --> 00:27:33,913
Das beendet unsere nicht so schnelle und doch sehr unvollständige Tour von Video-Rohdaten.

365
00:27:33,913 --> 00:27:38,651
Das Gute ist, dass wir bereits eine Menge richtiger Arbeit mit diesem Überblick erledigen können.

366
00:27:38,651 --> 00:27:42,528
In vielen Situationen ist ein Videobild ein Bild im Video.

367
00:27:42,528 --> 00:27:46,451
Die Details machen viel aus, wenn man Software schreiben möchte,

368
00:27:46,452 --> 00:27:52,086
aber momentan bin ich zufrieden, dass der geschätzte Zuschauer sich grob der relevanten Details bewusst ist.

369
00:27:55,640 --> 00:27:59,230
Also. Wir haben Audiodaten. Wir haben Videodaten.

370
00:27:59,230 --> 00:28:03,246
Was übrig bleibt sind die bekannteren Nicht-Signaldaten und geradlinige Technik

371
00:28:03,246 --> 00:28:07,410
die Software-Entwicklern bekannt ist. Und viel davon!

372
00:28:07,928 --> 00:28:11,768 
Klumpen von rohen Audio- und Video-Daten haben keine extern sichtbare Struktur,

373
00:28:11,768 -->  00:28:15,173
aber sie sind oft gleichmäßig gross. Wir könnten sie einfach zusammenketten

374
00:28:15,173 --> 00:28:18,097
in einer streng vorgegebenen Ordnung für Streaming und Speicherung

375
00:28:18,097 --> 00:28:21,040
und einige einfache Systeme machen das auch ungefähr.

376
00:28:21,040 --> 00:28:24,195
Komprimierte Bilder sind allerdings nicht notwendigerweise von vorhersehbarer Größe

377
00:28:24,195 --> 00:28:29,405
und wir wollen normalerweise flexibel sein in der Benutzung einer Reihe verschiedener Datentypen in Strömen.

378
00:28:29,405 --> 00:28:34,281
Wenn wir zufällige, formfreie Daten verketten, verlieren wir die Grenzen, die verschiedene Bilder

379
00:28:34,281 --> 00:28:37,871
voneinander trennt und wissen nicht unbedingt mehr welche Daten zu welchen Strömen gehören.

380
00:28:37,871 --> 00:28:42,192
Ein Strom braucht eine generalisierte Struktur um generell nützlich zu sein.

381
00:28:42,192 --> 00:28:46,606
Zusätzlich zu unseren Signaldaten haben wir auch unsere PCM- und Video-Parameter.

382
00:28:46,606 --> 00:28:49,752
Außerdem gibt es wahrscheinlich massig andere Metadaten, die wir auch handhaben wollen,

383
00:28:49,752 --> 00:28:55,415
so wie Audio-Titelinformationen und Video-Kapiteln und Untertiteln - alles wesentliche Komponenten von Rich Media.

384
00:28:55,415 --> 00:29:01,633
Es macht Sinn, diese Metadaten, d.h. Daten über die Daten, in den Medien selbst zu speichern.

385
00:29:01,633 --> 00:29:06,445
Speichern und Anordnen von formlosen Daten und separaten Metadaten ist der Job eines Containers.

386
00:29:06,445 --> 00:29:09,221
Container stellen ein Rahmenwerk für die Datenklumpen zur Verfügung,

387
00:29:09,221 --> 00:29:12,015
verschachteln und identifizieren mehrere Datenströme,

388
00:29:12,015 --> 00:29:15,337
stellen Zeitinformationen zur Verfügung, und speichern Metadaten nötig zum

389
00:29:15,337 --> 00:29:19,140
Prassen, Navigieren, Manipulieren und Darstellen der Medien.

390
00:29:19,140 --> 00:29:22,222
Generell kann jeder Container jede Art von Daten einschliessen.

391
00:29:22,222 --> 00:29:24,970
Und Daten können in jeden Container verpackt werden.

392
00:29:28,801 --> 00:29:32,391 
In den letzten dreissig Minuten haben wir digitales Audio, Video,

393
00:29:32,391 --> 00:29:35,435
und ein wenig Geschichte, etwas Mathe und ein bisschen Technik abgedeckt.

394
00:29:35,435 --> 00:29:39,377
Wir haben kaum die Oberfläche angekratzt, aber es ist Zeit für eine wohlverdiente Pause.

395
00:29:41,107 --> 00:29:45,373
Es gibt so viel mehr zu besprechen, so hoffe ich, dass Sie sich in der nächsten Folge wieder zu mir gesellen werden.

396
00:29:45,373 --> 00:29:47,159
Bis dann --- Tschüss!