1 00:00:08,124 --> 00:00:10,742 Workstations und hoch-qualitative PCs sind nun schon 2 00:00:10,742 --> 00:00:14,749 seit mehr als 15 Jahren fähig, digital Audiodaten zu manipulieren. 3 00:00:14,749 --> 00:00:17,470 Es sind nun gerade mal fünf Jahre, dass eine vernünftige Workstation fähig ist, 4 00:00:17,470 --> 00:00:21,643 rohe Videodaten ohne viel Spezial-Hardware zu handhaben. 5 00:00:21,643 --> 00:00:25,400 Aber heutzutage haben selbst die billigsten Universalcomputer 6 00:00:25,400 --> 00:00:28,092 ausreichend Prozessor- und Speicher-Fähigkeiten um mit rohen Videodaten 7 00:00:28,092 --> 00:00:30,479 ohne größere Probleme umgehen zu können. 8 00:00:30,479 --> 00:00:33,579 Da nun jeder Zugang hat zu solcher billigen und fähigen Hardware, 9 00:00:33,579 --> 00:00:36,651 ist es nicht überraschend, dass mehr Menschen interessante Dinge 10 00:00:36,651 --> 00:00:39,908 mit digitalen Medien unternehmen wollen - insbesondere Streaming. 11 00:00:39,908 --> 00:00:44,017 YouTube war der erste große Erfolg und jeder möchte jetzt daran teilhaben. 12 00:00:44,017 --> 00:00:47,413 Gut so! Denn dieses Zeug macht sehr viel Spass! 13 00:00:48,250 --> 00:00:51,179 Es ist kein Problem, Benutzer für digitale Medien zu finden. 14 00:00:51,179 --> 00:00:54,649 Aber ich möchte hier die Ingenieure, die Mathematiker, die Hacker, 15 00:00:54,649 --> 00:00:57,869 die Menschen ansprechen, die an Entdeckungen interessiert sind, 16 00:00:57,869 --> 00:01:01,302 und die Dinge erfinden, und die Technologie selbst erzeugen. 17 00:01:01,302 --> 00:01:03,282 Leute nach meinem Herzen. 18 00:01:04,250 --> 00:01:08,723 Digitale Medien, insbesondere Kompression, wird als super-elitär wahrgenommen, 19 00:01:08,723 --> 00:01:12,822 irgendwie extrem schwieriger als alles andere in den Computerwissenschaften. 20 00:01:12,822 --> 00:01:15,700 Den großen Spielern in der Industrie in diese Gebiet ist diese Wahrnehmung ganz recht; 21 00:01:15,700 --> 00:01:19,734 sie hilft, die riesige Anzahl ihrer sehr grundlegenden Patente zu rechtfertigen. 22 00:01:19,734 --> 00:01:23,870 Sie mögen das Image, dass ihre Medienforscher die besten der besten sind, 23 00:01:23,870 --> 00:01:27,738 so sehr viel schlauer als jeder andere, dass ihre brillanten Ideen 24 00:01:27,738 --> 00:01:29,903 von Normalsterblichen nicht verstanden werden können. 25 00:01:30,625 --> 00:01:33,716 Das ist kompletter Blödsinn. 26 00:01:35,205 --> 00:01:38,900 Digitaler Ton und Bild und Streaming und Kompression 27 00:01:38,900 --> 00:01:42,738 bieten endlos tiefe und anregende intellektuelle Herausforderungen, 28 00:01:42,738 --> 00:01:44,662 genau wie jedes andere Forschungsgebiet. 29 00:01:44,662 --> 00:01:47,929 Es scheint elitär, denn so wenige Menschen beschäftigen sich damit. 30 00:01:47,929 --> 00:01:51,223 Vielleicht haben sich so wenige Menschen dafür interessiert, da sich so wenige 31 00:01:51,223 --> 00:01:54,665 die teure Spezialausrüstung leisten konnten, die benötigt war. 32 00:01:54,665 --> 00:01:58,792 Aber heutzutage besitzt fast jeder, der dieses Video ansieht, einen billigen 33 00:01:58,792 --> 00:02:03,317 Universalcomputer, der die Fähigkeit hat, mit den großen Jungs zu spielen. 34 00:02:05,926 --> 00:02:11,108 Heutzutage gibt es Kämpfe um HTML5 und Browser 35 00:02:11,108 --> 00:02:13,671 und Video und offen gegen proprietär. 36 00:02:13,671 --> 00:02:17,048 Jetzt ist also ein ziemlich guter Zeitpunkt, sich damit zu beschäftigen. 37 00:02:17,048 --> 00:02:20,000 Den besten Start bekommt man wahrscheinlich indem man 38 00:02:20,000 --> 00:02:22,619 lernt, die Technologie die wir jetzt haben, zu verstehen. 39 00:02:23,500 --> 00:02:25,071 Dies ist eine Einführung. 40 00:02:25,071 --> 00:02:28,180 Da es eine Einführung ist, wird eine Tonne von Details nur angeschnitten, 41 00:02:28,180 --> 00:02:30,882 so dass das große Bild ein bisschen leichter zu sehen ist. 42 00:02:30,882 --> 00:02:33,908 Eine Menge Zuschauer werden längst jenseits dem Niveau sein, 43 00:02:33,908 --> 00:02:36,378 über das ich spreche, jedenfalls für den Moment. 44 00:02:36,378 --> 00:02:39,293 Auf der anderen Seite werde ich wahrscheinlich zu schnell sein 45 00:02:39,293 --> 00:02:44,558 für Leute, die dies zum aller ersten Mal hören - aber keine Panik. 46 00:02:44,558 --> 00:02:48,629 Das Wichtigste ist, Ideen mitzunehmen, die wirklich eure Phantasie anregen. 47 00:02:48,629 --> 00:02:52,497 Konzentriert euch speziell auf die Terminologie dieser Ideen, 48 00:02:52,479 --> 00:02:56,078 denn mit dieser und Google und Wikipedia kann man 49 00:02:56,078 --> 00:02:57,753 solange Details ausgraben wie das Interesse anhält. 50 00:02:57,753 --> 00:03:00,094 Also, ohne weitere Verzögerung, 51 00:03:00,094 --> 00:03:03,351 willkommen zu einem wahnsinnigen neuen Hobby. 52 00:03:10,291 --> 00:03:13,030 Ton ist die Übertragung von Druckwellen durch die Luft, welche sich von einer Quelle ausbreiten 53 00:03:13,030 --> 00:03:16,981 ähnlich wie Wellen um einen Stein, der in einen Teich geworfen wurde. 54 00:03:16,981 --> 00:03:19,489 Ein Mikrofon, oder in der Tat das menschliche Ohr, 55 00:03:19,489 --> 00:03:22,876 verwandeln diese vergänglichen Druckwellen in ein elektrisches Signal. 56 00:03:22,876 --> 00:03:25,800 Ok, das ist Realschul-Niveau in Physik - jeder sollte sich daran erinnern. 57 00:03:25,800 --> 00:03:26,771 Weiter geht's. 58 00:03:27,465 --> 00:03:32,527 Das resultierende Tonsignal ist eine ein-dimensionale Funktion, ein einziger Wert, der über die Zeit variiert, 59 00:03:32,527 --> 00:03:34,248 Wenn wir den Oszillator ein wenig verlangsamen... 60 00:03:36,450 --> 00:03:38,190 sollte das ein wenig leichter zu sehen sein. 61 00:03:38,190 --> 00:03:40,688 Einige andere Aspekt des Signals sind wichtig. 62 00:03:40,688 --> 00:03:43,418 Es ist kontinuierlich sowohl in Wert und Zeit; 63 00:03:43,418 --> 00:03:46,813 das heißt, zu jedem gegebenen Zeitpunk kann es jeden Realwert annehmen, 64 00:03:46,813 --> 00:03:50,228 und es gibt einen kontinuierlich sich ändernden Wert zu jedem Zeitpunkt. 65 00:03:50,228 --> 00:03:52,439 Egal wie sehr wir hinein-zoomen, 66 00:03:54,068 --> 00:03:58,510 es gibt keine Diskontinuitäten, keine Singularitäten, keine Sprünge 67 00:03:58,510 --> 00:04:01,285 oder Punkte an denen das Signal nicht existiert. 68 00:04:03,247 --> 00:04:08,475 Es ist überall definiert. Klassische kontinuierliche Mathematik kann sehr gut auf diese Signale angewandt werden. 69 00:04:11,001 --> 00:04:15,378 Ein digitales Signal auf der anderen Seite ist diskret, sowohl in Wert und Zeit. 70 00:04:15,378 --> 00:04:19,107 In den einfachsten und üblichsten Systemen, Puls-Code-Modulation genannt (PCM), 71 00:04:19,107 --> 00:04:24,058 eines einer endlichen Anzahl möglicher Wert repräsentiert direkt die momentane Signalamplitude 72 00:04:24,058 --> 00:04:30,165 zu Zeitpunkten, die ein festes Intervall voneinander entfernt sind. Das Endergebnis ist ein Zahlenstrom. 73 00:04:30,674 --> 00:04:35,309 Das sieht dann ungefähr so aus. 74 00:04:35,309 --> 00:04:38,964 Intuitiv nehmen wir an, dass es möglich sein sollte die eine Form in die andere 75 00:04:38,964 --> 00:04:44,683 umwandeln zu können, und in der Tat, das Abtast-Theorem besagt, dass wir das können und sagt auch wie. 76 00:04:44,683 --> 00:04:48,477 Publiziert anerkannterweise by Claude Shannon in 1949 77 00:04:48,477 --> 00:04:52,409 und aufbauend auf der Arbeit von Nyquist, Hartley und vielen anderen, 78 00:04:52,409 --> 00:04:56,138 das Abtast-Theorem besagt, dass wir nicht nur hin und her gehen können zwischen 79 00:04:56,138 --> 00:05:00,913 analogen und digitalen Signalen, aber legt auch eine Anzahl Bedingungen fest unter denen 80 00:05:00,913 --> 00:05:06,779 die Konvertierung verlustfrei ist und die beiden Darstellungen äquivalent und austauschbar sind. 81 00:05:06,779 --> 00:05:10,601 Wenn die verlustfreien Bedingungen nicht erfüllt sind, sagt uns das Abtast-Theorem 82 00:05:10,601 --> 00:05:14,247 wie und wieviel Information verloren ging oder zerstört wurde. 83 00:05:14,900 --> 00:05:21,270 Bis vor Kurzem war die Analogtechnik die Grundlage für praktisch alles was mit Audio unternommen wurde, 84 00:05:21,270 --> 00:05:25,267 und der Grund war nicht, dass die Mehrzahl von Tonaufnahmen ursprünglich von einer analogen Quelle stammt. 85 00:05:25,267 --> 00:05:28,450 Man mag annehmen, dass - weil Computer noch sehr jung sind - 86 00:05:28,450 --> 00:05:31,643 analoge Signaltechnik zuerst existiert haben muss. 87 00:05:31,643 --> 00:05:34,428 Aber nein. Digital ist in tatsächlich älter. 88 00:05:34,428 --> 00:05:37,611 Der Telegraph kam ein halbes Jahrhundert vor dem Telefon 89 00:05:37,611 --> 00:05:41,951 und war bereits voll mechanisch automatisiert in den 1860ern, und schickte codierte, 90 00:05:41,951 --> 00:05:46,476 gemultiplexte, digitale Signale über weite Entfernung. Sie wissen schon … Tickertape. 91 00:05:46,476 --> 00:05:50,427 Harry Nyquist von den Bell Labs forschte über Telegraph-Pulseübertragung 92 00:05:50,427 --> 00:05:53,027 als er seine Beschreibung dessen was später Nyquist-Frequenz genannt wurde 93 00:05:53,027 --> 00:05:57,219 publizierte - das Kernkonzept des Abtast-Theorems. 94 00:05:57,219 --> 00:06:01,642 Natürlich hat der Telegraph symbolische Information übertragen, Text, 95 00:06:01,642 --> 00:06:06,883 nicht digitalisierte analoge Signale, aber mit der Einführung von Telefon und Radio, 96 00:06:06,883 --> 00:06:12,000 entwickelte sich die analoge und digitale Signaltechnik schnell und gemeinsam. 97 00:06:12,699 --> 00:06:18,732 Audio wurde immer als Analogsignal manipuliert, denn, hmm, nun, es ist so viel einfacher. 98 00:06:18,732 --> 00:06:23,257 Ein Tiefpassfilter zweiter Ordnung, zum Beispiel, benötigt zwei passive Komponenten. 99 00:06:23,257 --> 00:06:26,505 Eine rein-analoge Short-Time-Fouriertransformation braucht mehrere hundert. 100 00:06:26,505 --> 00:06:30,752 Nun, vielleicht tausend wenn man etwas wirklich Besonderes bauen möchte. 101 00:06:31,844 --> 00:06:35,989 Die Verarbeitung digitaler Signale benötigt Millionen oder Billionen von Transistoren, 102 00:06:35,989 --> 00:06:40,366 die auf Mikrowellenfrequenzen arbeiten, benötigt Hardwareunterstützung zumindest zum Digitalisieren 103 00:06:40,366 --> 00:06:43,836 und Rekonstruieren der analogen Signale, benötigt ein komplettes Software-Ökosystem 104 00:06:43,836 --> 00:06:47,362 zur Programmierung und Kontrolle des Billionen-Transistor-Molochs, 105 00:06:47,362 --> 00:06:51,091 benötigt digitalen Speicher nur für den Fall dass man irgendwelche der Bits später nochmals braucht… 106 00:06:51,091 --> 00:06:56,171 Wir kommen also zu der Schlussfolgerung, dass analog der einzige praktische Weg ist, viel mit Audio zu tun... 107 00:06:56,171 --> 00:07:07,019 nun, außer man hat zufällig eine Billion Transistoren und all die anderen Dinge herumliegen. 108 00:07:07,850 --> 00:07:12,660 Und da wir das nun alles haben wird die digitale Signalverarbeitung sehr attraktiv. 109 00:07:13,363 --> 00:07:18,906 Zum einen haben analoge Komponenten nicht die Flexibilität eines Universalcomputers. 110 00:07:18,906 --> 00:07:21,182 Eine neue Funktion zu diesem Moloch hinzuzufügen... 111 00:07:22,191 --> 00:07:24,578 hmm, das ist sehr unwahrscheinlich. 112 00:07:24,578 --> 00:07:26,567 Auf einem digitalen Prozessor allerdings… 113 00:07:28,668 --> 00:07:34,127 …schreib' einfach ein neues Programm. Software ist nicht trivial, aber es ist sehr viel einfacher. 114 00:07:34,127 --> 00:07:39,550 Vielleicht wichtiger ist dass jede analoge Komponente eine Annäherung ist. 115 00:07:39,550 --> 00:07:44,352 Es gibt keine perfekten Transistoren, oder einen perfekten Induktor oder einen perfekten Kondensator. 116 00:07:44,352 --> 00:07:51,569 Im Analogen fügt jede Komponente Geräusche und Verzerrungen hinzu - normalerweise nicht viel, aber es summiert sich. 117 00:07:51,569 --> 00:07:55,669 Allein die Übertragung von analogen Signalen, besonders über große Distanzen, 118 00:07:55,669 --> 00:08:00,434 nach und nach, messbar und unwiederbringlich zerstört es. 119 00:08:00,434 --> 00:08:06,513 Im Übrigen nehmen all diese analogen Einzelzweck-Komponenten viel Raum ein. 120 00:08:06,513 --> 00:08:09,946 Zwei Programmzeilen auf den Billionen Transistoren hier hinten 121 00:08:09,946 --> 00:08:14,702 können einen Filter implementieren, der eine Spule der Größe eines Kühlschranks brauchen würde. 122 00:08:14,702 --> 00:08:17,941 Digitale Systeme haben nicht diese Nachteile. 123 00:08:17,941 --> 00:08:24,335 Digitale Signale können gespeichert, kopiert, manipuliert und übertragen werden ohne irgendwelche Geräusche oder Verzerrungen hinzuzufügen. 124 00:08:24,335 --> 00:08:26,889 Wir nutzen verlustbehaftete Algorithmen ab und zu, 125 00:08:26,889 --> 00:08:31,284 aber die einzigen unvermeidbar suboptimalen Schritte sind Digitalisierung und Rekonstruktion, 126 00:08:31,284 --> 00:08:35,929 wo Digital mit all dem unordentlichen Analogen interagieren muss. 127 00:08:35,929 --> 00:08:40,750 Unordentlich oder nicht - moderne Konvertierungsschritte sind sehr sehr gut. 128 00:08:40,750 --> 00:08:45,849 Nach den Standards die unsere Ohren setzen, können wir sie auch als praktisch verlustfrei ansehen. 129 00:08:45,849 --> 00:08:50,429 Dann, mit ein wenig zusätzlicher Hardware - zumeist jetzt klein und billig 130 00:08:50,429 --> 00:08:55,379 wegen unserer modernen industriellen Infrastruktur - ist digitales Audio der offenbare Gewinner über analog. 131 00:08:55,379 --> 00:09:00,857 Also lasst es uns dann speichern, kopieren, manipulieren, und übertragen. 132 00:09:04,956 --> 00:09:08,639 Pulscode-Modulation ist die üblichste Darstellung für rohe Audiodaten. 133 00:09:08,639 --> 00:09:13,867 Andere praktische Darstellungen existieren, zum Beispiel die Sigma-Delta-Kodierung, die von SACD benutzt wird, 134 00:09:13,867 --> 00:09:16,625 die eine Art Pulsdichte-Modulation darstellt. 135 00:09:16,625 --> 00:09:19,687 Dennoch ist die Pulscode-Modulation bei weitem dominierend, 136 00:09:19,687 --> 00:09:22,158 besonders weil sie mathematisch so bequem ist. 137 00:09:22,158 --> 00:09:26,350 Ein Audio-Ingenieur kann eine gesamte Karriere verleben ohne je etwas anderes zu sehen. 138 00:09:26,350 --> 00:09:29,135 Die PCM-Kodierung kann man durch drei Parameter charakterisieren, 139 00:09:29,135 --> 00:09:34,187 welches uns erlaubt, jede mögliche PCM Variante mit glücklicherweise wenigem Aufwand handzuhaben. 140 00:09:34,187 --> 00:09:36,426 Der erste Parameter ist die Abtastrate. 141 00:09:36,426 --> 00:09:40,886 Die höchste Frequenz, die eine Kodierung darstellen kann, heißt Nyquist-Frequenz. 142 00:09:40,886 --> 00:09:45,124 Die Nyquist-Frequenzy von PCM ist zufällig genau die Hälfte der Abtastrate. 143 00:09:45,124 --> 00:09:51,389 Deshalb bestimmt die Abtastrate direkt die höchste mögliche Frequenz in einem digitalisierten Signal. 144 00:09:51,389 --> 00:09:56,515 Analoge Telefonsystems begrenzten traditionell die Frequenzbänder von Sprachkanälen auf unter 4kHz, 145 00:09:56,515 --> 00:10:02,224 weshalb die digitale Telefonie und die meisten klassischen Sprachanwendungen eine 8kHz Abtastrate verwenden, 146 00:10:02,224 --> 00:10:07,277 welches die minimale Abtastrate ist, die benötigt wird, um die gesamte Bandbreite eines 4kHz Kanals zu erfassen. 147 00:10:07,227 --> 00:10:14,263 So hört sich ein Audiosignal mit 8kHz Abtastrate an --- ein wenig dumpf, aber vollkommen erfassbar für Sprache. 148 00:10:17,263 --> 00:10:18,149 Dies ist die niedrigste Abtastrate, die jemals praktisch breit eingesetzt wurde. 149 00:10:18,149 --> 00:10:23,322 Von hier, mit dem Anstieg an CPU Stärke und Hauptspeicher, und Speicherplatz für Heimcomputer-Hardware, 150 00:10:23,322 --> 00:10:29,642 ging es zu 11, dann 16, und dann 22, und schließlich 32kHz Abtastrate. 151 00:10:29,642 --> 00:10:33,491 Mit jedem Anstieg in der Abtastrate und der Nyquist-Frequenz steht fest, 152 00:10:33,491 --> 00:10:38,302 dass das obere Ende ein wenig ein wenig klarer und der Sound natürlicher wird. 153 00:10:38,301 --> 00:10:44,576 Die CD benutzt eine Abtastrate von 44.1kHz, welche wiederum ein wenig besser ist als 32kHz, 154 00:10:44,576 --> 00:10:46,788 aber der Gewinn wird immer geringer. 155 00:10:46,788 --> 00:10:52,053 44.1kHz ist eine etwas komische Wahl, besonders da es vor der CD für nichts anderes benutzt worden war, 156 00:10:52,053 --> 00:10:56,559 aber der riesige Erfolg der CD hat es eine übliche Rate gemacht. 157 00:10:56,559 --> 00:11:01,195 Die üblichste Abtastrate für HiFi (hohe Qualität) neben der CD ist 48kHz. 158 00:11:05,710 --> 00:11:08,597 Es gibt praktisch keinen hörbaren Unterschied zwischen den beiden. 159 00:11:08,597 --> 00:11:13,640 Dieses Video, oder zumindest seine Originalversion, wurde mit 48kHz Audio aufgenommen und produziert, 160 00:11:13,640 --> 00:11:18,545 welches im Übrigen der Originalstandard für HiFi Audio für Video ist. 161 00:11:18,545 --> 00:11:25,100 Super-Hi-Fi Abtasteten von 88, 96, und 192kHz gibt es auch. 162 00:11:25,100 --> 00:11:30,888 Der Grund für Abtasteten oberhalb von 48kHz ist allerdings nicht die Erweiterung der hörbaren Frequenzen. 163 00:11:30,888 --> 00:11:32,489 Es gibt einen anderen Grund. 164 00:11:32,896 --> 00:11:37,319 Um nochmals auf die Theorie zurückzukommen: der französische Mathematiker Jean Baptiste Joseph Fourier 165 00:11:37,319 --> 00:11:42,353 hat gezeigt, dass wir Audiosignale auch als eine Ansammlung von Frequenzkomponenten betrachten können. 166 00:11:42,353 --> 00:11:45,841 Diese Frequenzbereichsdarstellung ist äquivalent zu der Zeitbereichsdarstellung; 167 00:11:45,841 --> 00:11:49,719 das Signal ist exakt das gleiche, wir sehen es nur von einem anderen Standpunkt. 168 00:11:49,719 --> 00:11:56,131 Hier sehen wir die Frequenzbereichsdarstellung eines hypothetischen Analogsignals, das wir digitalisieren wollen. 169 00:11:56,131 --> 00:11:59,888 Das Abtast-Theorem gibt uns zwei grundlegende Informationen über den Abtastprozess. 170 00:11:59,888 --> 00:12:04,727 Zuerst besagt es, dass ein Digitalsignal keine Frequenzen oberhalb der Nyqauist-Frequenz darstellen kann. 171 00:12:04,727 --> 00:12:10,640 Dann besagt es - und dies ist der neue Teil - dass, wenn wir diese hohen Frequenzen nicht mit einem Tiefpassfilter löschen 172 00:12:10,640 --> 00:12:16,414 bevor wir Abtasten, der Abtastprozess sie in den darstellbaren Frequenzbereich als Aliasing-Verzerrung falten wird. 173 00:12:16,414 --> 00:12:20,069 Aliasing hört sich wirklich schrecklich an, 174 00:12:20,069 --> 00:12:25,242 so ist es absolut notwendig, alle Frequenzen oberhalb der Nyquist-Frequenz vor dem Abtasten und nach der Rekonstruktion zu löschen. 175 00:12:25,871 --> 00:12:31,265 Es ist anerkannt, dass die menschliche Frequenzwahrnehmung bis ungefähr 20kHz reicht. 176 00:12:31,265 --> 00:12:37,548 Für 44.1 oder 48kHz Abtastrate muss der Tiefpassfilter vor dem Abtasten sehr genau sein, 177 00:12:37,548 --> 00:12:42,101 um das Löschen von hörbaren Frequenzen unter 20kHz zu vermeiden, 178 00:12:42,101 --> 00:12:49,439 aber dennoch keine Frequenzen oberhalb von Nyquist in den Abtastprozess einfließen zu lassen. 179 00:12:49,439 --> 00:12:55,342 Es ist schwierig, einen solchen Filter zu bauen und kein praktischer Filter erreicht das vollständig. 180 00:12:55,342 --> 00:13:00,024 Auf der anderen Seite, wenn die Abtastrate 96kHz oder 192kHz ist, 181 00:13:00,024 --> 00:13:07,223 hat der Tiefpassfilter eine zusätzliche Oktave oder zwei für sein Übergangsband. Das ist ein sehr viel einfacherer Filter. 182 00:13:07,223 --> 00:13:14,348 Abtastraten oberhalb von 48kHz sind tatsächlich einer der schmutzigen Kompromisse für Analogsignale. 183 00:13:15,014 --> 00:13:20,844 Der zweite grundlegende PCM Parameter ist das Format des Abtastwertes, d.h. jeder einzelnen digitalen Zahl. 184 00:13:20,844 --> 00:13:26,285 Eine Zahl ist eine Zahl, aber eine Zahl kann mit Bits auf verschiedene Arten dargestellt werden. 185 00:13:26,942 --> 00:13:30,902 Frühe PCM Werte waren 8 Bit linear, kodiert als vorzeichenfreies Byte. 186 00:13:30,902 --> 00:13:37,028 Die Dynamikwerte sind auf 50dB beschränkt und das Quantisierungsgeräusch, wie man hören kann, ziemlich schwerwiegend. 187 00:13:37,028 --> 00:13:39,970 Acht Bit lineares Audio ist heutzutage vernachlässigbar selten. 188 00:13:41,007 --> 00:13:47,484 Die digitale Telefonie benutzt typischerweise eine von zwei verwandten, nicht-linearen 8-Bit Kodierungen, A-law und u-law genannt. 189 00:13:47,484 --> 00:13:51,287 Diese Formate kodieren ungefähr 14 bit Dynamikwerte in 8 bit, 190 00:13:51,287 --> 00:13:54,674 indem die höheren Amplitudenwerte mit größerem Abstand erfasst werden. 191 00:13:54,674 --> 00:13:59,226 A-law und u-law verbessern offenbar das Quantisierungsgeräusch im Vergleich zu 8-Bit linear, 192 00:13:59,226 --> 00:14:03,557 und besonders die Sprach-Harmonischen verstecken das übrige Quantisierungsgeräusch gut. 193 00:14:03,557 --> 00:14:08,248 Alle drei 8 Bit Kodierungen - linear, a-law und mu-law - werden typischerweise 194 00:14:08,248 --> 00:14:13,328 mit einer 8kHz Abtastrate kombiniert, obwohl ich sie hier mit 48kHz zeige. 195 00:14:13,328 --> 00:14:18,491 Die meiste moderne PCM benutzt 16 oder 24 Bit 2er-Komplement vorzeichenbehaftete ganze Zahlen, 196 00:14:18,491 --> 00:14:23,858 um die Werte von negativ unendlich bis Null Dezibel mit 16 oder 24 Bit Genauigkeit zu kodieren. 197 00:14:23,858 --> 00:14:27,800 Der maximale Absolutwert entspricht Null Dezibel. 198 00:14:27,800 --> 00:14:31,584 Wie mit allen Abtastformaten bisher werden Signale oberhalb von Null Dezibel - 199 00:14:31,584 --> 00:14:35,619 und deshalb oberhalb des maximalen darstellbaren Bereichs - abgeschnitten (geclippt). 200 00:14:35,619 --> 00:14:41,199 Beim Mixen und Mastern ist es nicht unüblich, dass Realwerte für PCM benutzt werden anstatt ganzer Zahlen. 201 00:14:41,199 --> 00:14:47,222 Ein 32 Bit IEEE754 Realwert - das sind normale Realzahlen wie sie in üblichen Computern benutzt werden - 202 00:14:47,222 --> 00:14:52,793 hat 24 Bit Auflösung, aber ein 7 Bit Realwert-Exponent erweitert den darstellbaren Bereich. 203 00:14:52,793 --> 00:14:57,040 Realwerte stellen normalerweise Null Dezibel als +/-1.0 dar, 204 00:14:57,040 --> 00:15:00,547 und weil Realwerte offenbar weit darüber hinaus Werte annehmen können, 205 00:15:00,547 --> 00:15:05,220 verursacht das temporäre Überschreiten von Null Dezibel während des Mischprozesses kein Clipping. 206 00:15:05,220 --> 00:15:11,077 Realwert PCM nimmt mehr Platz ein, weshalb es generell nur als Zwischenformat in der Produktion verwendet wird. 207 00:15:11,077 --> 00:15:15,796 Die meisten generellen Computer lesen und schreiben noch immer Daten in 8-bit Bytes, 208 00:15:15,796 --> 00:15:18,489 so ist es schließlich wichtig, nicht zu vergessen, dass Werte, die größer als 8 Bit sind 209 00:15:18,489 --> 00:15:22,838 in Big oder Little Endian Byteordnung dargestellt werden können, und beide Endianformen sind üblich. 210 00:15:22,838 --> 00:15:28,751 Zum Beispiel sind Microsoft WAV Dateien in Little Endian und Apple AIFC Files generell in Big Endian. 211 00:15:28,751 --> 00:15:30,139 Also aufgepasst. 212 00:15:30,870 --> 00:15:34,071 Der dritte PCM Parameter ist die Anzahl Kanäle. 213 00:15:34,071 --> 00:15:38,485 Die Konvention mit rohem PCM ist dass mehrere Kanäle durch Interleaving von Werten 214 00:15:38,485 --> 00:15:43,398 aller Kanäle in einen einzigen Strom kodiert werden. Einfach und erweiterbar. 215 00:15:43,398 --> 00:15:47,701 Und das ist alles! Das beschreibt alle jemals existierenden PCM Repräsentation. 216 00:15:47,701 --> 00:15:51,578 Fertig. Digitales Audio ist _so_einfach_! 217 00:15:51,578 --> 00:15:56,436 Es gibt natürlich mehr zu tun, aber wir haben jetzt ein nützliches Stück Audiodaten zusammen, 218 00:15:56,436 --> 00:15:58,092 also lasst uns uns jetzt dem Video zuwenden. 219 00:16:02,571 --> 00:16:08,798 Man könnte sich Video als Audio mit zwei zusätzlichen räumlichen Dimensionen, X und Y, vorstellen, 220 00:16:08,798 --> 00:16:12,787 zusätzlich zu der Zeitdimension. Das ist mathematisch korrekt. 221 00:16:12,787 --> 00:16:19,097 Das Abtast-Theorem gilt für alle drei Video-Dimensionen ebenso wie es für die Zeitdimension von Audio gilt. 222 00:16:19,097 --> 00:16:25,815 Audio und Video sind alerdings ziemlich verschieden in Praxis. Zum Einen ist Video riesig im Vergleich zu Audio. 223 00:16:25,815 --> 00:16:29,294 Rohe CD-Daten sind ungefähr 1.4 Megabit pro Sekunde. 224 00:16:29,294 --> 00:16:33,958 Rohes 1080i HD Video ist mehr als 700 Megabit pro Sekunde. 225 00:16:33,958 --> 00:16:40,056 Das sind mehr als 500 Mal mehr Daten zu erfassen, verarbeiten und speichern pro Sekunde. 226 00:16:40,056 --> 00:16:43,711 Nach Moore's Gesetz… sind das… mal sehen… ungefähr 8 Verdoppelungen Mal zwei Jahre, 227 00:16:43,711 --> 00:16:47,838 also ja, Computer benötigen ungefähr zusätzlich 15 Jahre um rohes Video zu handhaben 228 00:16:47,838 --> 00:16:51,252 nachdem wir gerade rohes Audio richtig hinbekommen haben. 229 00:16:51,252 --> 00:16:55,425 Einfaches rohes Video ist auch komplexer als einfaches rohes Audio. 230 00:16:55,425 --> 00:16:58,599 Die riesige Datenvolumen verlangt im Moment eine Repräsentation, 231 00:16:58,599 --> 00:17:02,106 die effizienter ist als lineares PCM für Audio. 232 00:17:02,106 --> 00:17:06,705 Zusätzlich stammt elektronisches Video fast ausschließlich vom Fernsehen ab 233 00:17:06,705 --> 00:17:13,423 und die Standard-Kommittees, die digitales Video betreffen, haben sich immer um Rückwärts-Kompatibilität gekümmert. 234 00:17:13,423 --> 00:17:17,559 In den USA konnte bis letztes Jahr ein 60 Jahre alter Schwarz/Weiß-Fernseher 235 00:17:17,559 --> 00:17:21,038 noch immer eine normale analoge Fernsehsendung zeigen. 236 00:17:21,038 --> 00:17:23,879 Das ist tatsächlich ein richtig cooler Trick. 237 00:17:23,879 --> 00:17:28,718 Der Nachteil von Rückwärts-Kompatibilität ist dass wenn ein Detail einmal im Standard ist, 238 00:17:28,718 --> 00:17:30,985 kann man es nie wieder herausnehmen. 239 00:17:30,985 --> 00:17:37,305 Elektronisches Video hat nie von vorne begonnen in der selben Art wie Audio es mehrfach tat. 240 00:17:37,305 --> 00:17:43,958 60 Jahre voll mit schlauen aber überflüssigen Hacks benötigt wegen der vergänglichen Technologie einer gegebenen Zeit 241 00:17:43,958 --> 00:17:50,102 haben sich ziemlich angehäuft, und weil digitale Standards auch vom Fernsehen stammen, 242 00:17:50,102 --> 00:17:54,664 werden all diese schauerlichen Hacks auch in digitale Standards eingebracht. 243 00:17:54,664 --> 00:18:00,022 Kurz gesagt, es gibt eine ganze Menge mehr Details mit digitalem Video als mit Audio. 244 00:18:00,022 --> 00:18:05,592 Es besteht keine Hoffnung, sie hier alle komplett zu beschreiben, so werden wir nur die Grundlagen beschreiben. 245 00:18:06,036 --> 00:18:10,857 Die offensichtlichsten rohen Video Parameter sind die Breite und Höhe der Bilder in Pixel. 246 00:18:10,857 --> 00:18:15,882 So einfach wie es sich anhört, spezifizieren die Pixel-Dimensionen allein allerdings nicht die absolute 247 00:18:15,882 --> 00:18:22,016 Breite und Höhe der Bilder, denn die meisten vom Fernsehen stammenden Videos benutzen keine quadratischen Pixel. 248 00:18:22,016 --> 00:18:25,005 Die Anzahl Scanlinien in einem Fernsehbild war fest, 249 00:18:25,005 --> 00:18:29,021 aber die effektive Anzahl horizontaler Pixel war eine Funktion der Kanalbandbreite. 250 00:18:29,021 --> 00:18:31,945 Effektive horizontale Auflösung konnte in Pixel resultieren, die entweder enger 251 00:18:31,945 --> 00:18:35,489 oder weiter waren als der Abstand zwischen den Scanlinien. 252 00:18:35,489 --> 00:18:38,395 Standards haben generell spezifiziert, dass digital abgetastetes Video 253 00:18:38,395 --> 00:18:41,902 die tatsächliche Auflösung der originalen analogen Quelle reflektieren sollte, 254 00:18:41,902 --> 00:18:45,566 also benutzt eine große Zahl digitaler Videos auch nicht-quadratische Pixel. 255 00:18:45,566 --> 00:18:49,924 Zum Beispiel ist eine normales 4:3 Aspektverhältnis NTSC DVD typisch kodiert 256 00:18:49,924 --> 00:18:55,374 mit einer Bildauflösung von 704 auf 480, ein Verhältnis breiter als 4:3. 257 00:18:55,374 --> 00:18:59,640 In diesem Fall wird den Pixeln selbst ein Aspektverhältnis von 10:11 zugewiesen, 258 00:18:59,640 --> 00:19:04,553 welches sie höher macht als breit und das Bild horizontal enger, um das Aspektverhältnis zu korrigieren. 259 00:19:04,553 --> 00:19:09,800 Solch ein Bild muss erneut abgetastet werden, um ein vernünftiges digitales Display mit quadratischen Pixeln zu zeigen. 260 00:19:10,253 --> 00:19:15,287 Der zweiter offensichtliche Videoparameter ist die Bidrate - die Anzahl kompletter Bilder pro Sekunde. 261 00:19:15,287 --> 00:19:19,655 Mehrere Standard-Bildraten werden heute aktiv benutzt. Digitales Video - in der einen oder anderen Form - 262 00:19:19,655 --> 00:19:23,689 kann alle unterstützen. Oder jede andere Bildrate. Oder sogar variable Raten, 263 00:19:23,689 --> 00:19:27,113 bei denen die Bildrate sich über den Verlauf des Videos verändert. 264 00:19:27,113 --> 00:19:32,998 Je höher die Bildrate, desto flüssiger ist die Bewegung und das bringt uns leider zum Zeilenspringverfahren (Interlacing). 265 00:19:32,998 --> 00:19:37,967 In den ersten Tagen des Fernsehens haben Ingenieure nach der schnellsten praktischen Bildrate 266 00:19:37,967 --> 00:19:42,075 für flüssige Bewegung gesucht und um das Flickern der Phoshpor-basierten CRTs zu minimieren. 267 00:19:42,075 --> 00:19:45,277 Sie standen außerdem unter Druck, die geringste mögliche Bandbreite 268 00:19:45,277 --> 00:19:48,182 mit der höchsten Auflösung und schnellsten Bildrate zu finden. 269 00:19:48,182 --> 00:19:51,208 Ihre Lösung war das Interlacing von Video, wobei die geraden Linien 270 00:19:51,208 --> 00:19:54,826 in einem Moment geschickt werden und die ungeraden Linien im nächsten. 271 00:19:54,826 --> 00:19:59,961 Jeder Durchgang wird ein Feld genannt und zwei Felder produzieren quasi ein komplettes Bild. 272 00:19:59,961 --> 00:20:05,319 "Quasi" - denn die geraden und ungeraden Felder sind nicht eigentlich vom selben Ursprungsbild. 273 00:20:05,319 --> 00:20:10,797 In einem 60-Felder-pro-Sekunde Film ist die Bildrate eigentlich 60 volle Bilder pro Sekunde, 274 00:20:10,797 --> 00:20:15,386 und die Hälfte jedes Bildes - jede zweite Linke - wird einfach weggeworfen. 275 00:20:15,386 --> 00:20:20,272 Deshalb können wir nicht einfach ein Video ent-interlacen indem wir zwei Felder in ein Bild kombinieren; 276 00:20:20,272 --> 00:20:23,039 sie sind in der Tat ursprünglich nicht vom selben Bild. 277 00:20:24,047 --> 00:20:29,683 Die Kathodenstrahlröhre war die einzige verfügbare Anzeigetechnologie während des größten Teils der Geschichte des elektronischen Videos. 278 00:20:29,683 --> 00:20:32,949 Die Ausgabehelligkeit eines CRTs ist nicht-linear und entspricht ungefähr 279 00:20:32,949 --> 00:20:36,585 der eingangssteuernden Spannung hoch 2.5. 280 00:20:36,585 --> 00:20:43,821 Der Exponent - 2.5 - ist das designierte Gamma und so wird es oft das Gamma des Monitors genannt. 281 00:20:43,821 --> 00:20:50,493 Kameras sind allerdings linear, und wenn man ein lineares Eingabesignal einem CRT gibt, sieht es ein wenig so aus. 282 00:20:51,270 --> 00:20:56,637 Das es ursprünglich sehr wenige Kameras gab, die außerdem fantastisch teuer waren, 283 00:20:56,637 --> 00:21:01,634 und man viele, viele Fernseher erwartete, die am besten so billig wie möglich sein sollten, 284 00:21:01,634 --> 00:21:08,222 haben die Ingenieure entschieden, die nötige Gamma-Korrektur-Schaltung der Kamera hinzuzufügen anstatt den Fernsehgeräten. 285 00:21:08,222 --> 00:21:13,062 Video, das über Luftwellen übertragen wurde, hatte deshalb nicht-lineare Lichtstärke, das inverse 286 00:21:13,062 --> 00:21:18,271 des Gamma Exponenten des Fernsehgeräts, so dass wenn ein Kamerasignal endlich auf einem CRT dargestellt wird, 287 00:21:18,271 --> 00:21:23,305 die Gesamtantwort des Systems von Kamera zum Fernsehgerät wieder linear war. 288 00:21:23,777 --> 00:21:25,118 Fast. 289 00:21:30,393 --> 00:21:33,113 Es gibt noch zwei andere Verbesserungen. 290 00:21:33,113 --> 00:21:40,442 Eine Fernsehkamera benutzt in der Tat einen Gamma-Exponenten, der das Inverse von 2.2 ist und nicht 2.5. 291 00:21:40,442 --> 00:21:43,754 Das ist eine Korrektur um in einer dunklen Umgebung zu sehen. 292 00:21:43,754 --> 00:21:48,279 Auch gehen die Exponentialkurven in eine lineare Rampe in der Nähe von Schwarz über. 293 00:21:48,279 --> 00:21:52,360 Das ist nur eine alte Notlösung um Sensorengeräusche in der Kamera zu unterdrücken. 294 00:21:54,941 --> 00:21:57,347 Die Gamma-Korrektur hat noch einen glücklichen Seiteneffekt. 295 00:21:57,347 --> 00:22:02,214 Zufällig hat das menschliche Auge einen Wahrnehmungs-Gamma von ungefähr 3. 296 00:22:02,214 --> 00:22:05,962 Das ist ziemlich nah an dem CRT Gamma von 2.5. 297 00:22:05,962 --> 00:22:10,607 Ein Bild, das Gamma-Korrektur benutzt gibt mehr Auflösung den niedrigeren Intensitäten, 298 00:22:10,607 --> 00:22:14,336 wo das Auge zufällig seine genaueste Intensitätsauflösung hat, 299 00:22:14,336 --> 00:22:18,222 und deshalb die verfügbare Skalenauflösung genauer benutzt. 300 00:22:18,222 --> 00:22:22,784 Obwohl CRTs momentan am verschwinden sind, benutzt ein Standard sRGB Computermonitor 301 00:22:22,784 --> 00:22:28,419 noch immer eine nicht-lineare Intensitätskurve ähnlich wie das Fernsehen, mit einer linearen Rampe in der Nähe von Schwarz, 302 00:22:28,419 --> 00:22:32,491 gefolgt von einer Exponentialkurve mit einem Gamma-Exponenten von 2.4. 303 00:22:32,491 --> 00:22:36,636 Das kodiert eine 16-bit lineares Band auf 8 Bit herunter. 304 00:22:37,580 --> 00:22:41,790 Das menschliche Auge hat drei offenbare Farbkanäle: rot, grün und blau, 305 00:22:41,790 --> 00:22:47,407 und die meisten Monitore benutzen diese drei Farben als additive Primärfarben, um die volle Breite der Farben zu produzieren. 306 00:22:49,258 --> 00:22:54,190 Die primären Pigmente in Druckfarben sind Cyan, Magenta, und Gelb aus den gleichen Gründen; 307 00:22:54,190 --> 00:22:59,381 Pigmente sind subtraktiv, und jedes dieser Pigmente subtrahiert eine reine Farbe vom reflektierten Licht. 308 00:22:59,381 --> 00:23:05,682 Cyan subtrahiert rot, magenta subtrahiert grün, und gelb subtrahiert blau. 309 00:23:05,682 --> 00:23:10,919 Video kann und manchmal wird mit rot, grün und blauen Kanälen dargestellt, 310 00:23:10,919 --> 00:23:17,211 aber RGB Video ist atypisch. Das menschliche Auge ist sehr viel sensibler auf Helligkeit als auf Farbe, 311 00:23:17,211 --> 00:23:21,329 und RGB verteilt die Energie eines Bildes über alle Farbkanäle. 312 00:23:21,329 --> 00:23:25,326 Das heißt, die rote Eben sieht aus wie eine rote Version des Originalbildes, 313 00:23:25,326 --> 00:23:28,769 die grüne Ebene sieht aus wie eine grüne Version des Originalbildes, 314 00:23:28,769 --> 00:23:32,063 und die blaue Ebene sieht aus wie eine blaue Version des Originalbildes. 315 00:23:32,063 --> 00:23:35,705 Schwarz und weiß drei mal. Nicht effizient. 316 00:23:35,706 --> 00:23:39,438 Aus diesen Gründen und weil, oh hey, Fernsehen sowieso zufällig 317 00:23:39,438 --> 00:23:45,017 als schwarz und weiß angefangen hat, wird Video üblicherweise als hochauflösender Helligkeitskanal, 318 00:23:45,017 --> 00:23:51,041 als schwarz und weiß dargestellt, zusammen mit zusätzlichen, zumeist niedriger aufgelösten Chroma-Kanälen, den Farben. 319 00:23:51,041 --> 00:23:57,074 Der Helligkeitskanal, Y, ist produziert indem man die separaten rot, grün und blauen Signale gewichtet und dann addiert. 320 00:23:57,074 --> 00:24:01,867 Die Farbkanäle U und V sind dann produziert indem man das Helligkeitssignal von blau 321 00:24:01,867 --> 00:24:04,070 und das Farbsignal von rot abzieht. 322 00:24:04,070 --> 00:24:11,750 Wenn YUV skaliert, versetzt und quantisiert wird für digitales Video, wird es korrekterweise Y'CbCr genannt, 323 00:24:11,750 --> 00:24:15,238 aber der generellere Ausdruck YUV wird weitgehend benutzt, um 324 00:24:15,238 --> 00:24:18,301 all die analogen und digitalen Varianten dieses Farbmodells zu beschreiben. 325 00:24:18,912 --> 00:24:22,983 Die U und V Farbkanäle können die selbe Auflösung haben wie der Y Kanal, 326 00:24:22,983 --> 00:24:28,674 aber weil das menschliche Auge eine viel geringere räumliche Farbauflösung als räumliche Helligkeitsauflösung hat, 327 00:24:28,674 --> 00:24:34,346 wird normal die Farbauflösung halbiert oder sogar geviertelt in der horizontalen und/oder der vertikalen 328 00:24:34,346 --> 00:24:39,528 Richtung, üblicherweise ohne signifikanten Einfluss auf die rohe Bildqualität. 329 00:24:39,528 --> 00:24:43,942 Praktisch jede mögliche Unterabtastungs-Variante ist schon einmal eingesetzt worden, 330 00:24:43,942 --> 00:24:46,875 aber die üblichen Wahlen heutzutage sind 331 00:24:46,875 --> 00:24:51,187 4:4:4 Video, welches tatsächlich nicht unterabgetastet ist, 332 00:24:51,187 --> 00:24:56,711 4:2:2 Video, in welchem die horizontale Auflösung der U und V Kanäle halbiert ist, 333 00:24:56,711 --> 00:25:02,587 und am üblichsten von allen, 4:2:0 Video, in welchem sowohl die horizontale als auch die vertikale Auflösung 334 00:25:02,587 --> 00:25:08,897 der Farbkanäle halbiert ist, was in U und V Ebenen resultiert, die beide ein Viertel der Grösse von Y sind. 335 00:25:08,897 --> 00:25:17,096 Die Ausdrücke 4:2:2, 4:2:0, 4:1:1 und so weiter sind nicht komplette Beschreibungen der Farb-Unterabtastung. 336 00:25:17,096 --> 00:25:21,186 Es gibt viele Möglichkeiten, die Farbpixel im Verhältnis zur Helligkeit zu positionieren, 337 00:25:21,096 --> 00:25:24,776 und wiederum werden viele Möglichkeiten für jede Unterabtastungs-Variante aktiv benutzt. 338 00:25:24,776 --> 00:25:32,502 Zum Beispiel, motion JPEG, MPEG-1 Video, MPEG-2 Video, DV, Theora und WebM benutzen alle 339 00:25:32,502 --> 00:25:38,137 oder können alle 4:2:0 benutzen, aber sie positionieren die Farbpixel auf drei verschiedene Arten. 340 00:25:38,498 --> 00:25:43,023 Motion JPEG, MPEG1 Video, Theora und WebM positionieren die Farbpixel 341 00:25:43,023 --> 00:25:46,345 zwischen den Helligkeits-Pixeln, sowohl horizontal als auch vertikal. 342 00:25:46,345 --> 00:25:51,989 MPEG2 Video positionier Farbpixel zwischen Linien, aber horizontal sind sie mit jedem zweiten Helligkeitspixel bündig. 343 00:25:51,989 --> 00:25:57,106 Das Zeilensprungverfahren macht das Ganze noch etwas komplizierter und resultiert in einem Arrangement das ein wenig bizarr ist. 344 00:25:57,106 --> 00:26:00,909 Und schliesslich PAL-DV, welches immer interlaced ist, platziert die Farbpixel 345 00:26:00,909 --> 00:26:04,398 in der selben Position wie jedes zweite Helligkeitspxiel in der horizontalen Richtung, 346 00:26:04,398 --> 00:26:07,303 alterniert Farbkanäle vertikal in jeder Zeile. 347 00:26:07,683 --> 00:26:12,282 Das war nur 4:2:0 Video. Ich überlasse die anderen Unterabtastungen als Hausarbeit dem Zuschauer. 348 00:26:12,282 --> 00:26:14,882 Die Grundidee ist beschrieben - weiter geht's. 349 00:26:15,511 --> 00:26:21,128 In Audio repräsentieren wir immer mehrere Kanäle in einem PCM Strom indem die Werte von jedem 350 00:26:21,128 --> 00:26:26,383 Kanal in der selben Reihenfolge abgewechselt werden. Video benutzt sowohl gepackte Formate, welche die Farbkanäle abwechselt, 351 00:26:26,383 --> 00:26:30,584 als auch ebene Formate, welche die Pixel von jedem Kanal in verschiedenen Ebenen zusammenhält 352 00:26:30,584 --> 00:26:35,415 und in ihrer Reihenfolge im Bild stapelt. Es gibt mindestens 50 verschiedene Formate in diesen zwei groben Kategorien 353 00:26:35,415 --> 00:26:41,549 mit vielleicht 10 oder 15 üblichen. Jeder Farb-Unterabtastung und verschiedene Bit-Tiefe benötigt 354 00:26:41,549 --> 00:26:46,574 eine andere gepackte Anordnung, und so ein anderes Pixelformat. Für eine gegebene einzigartige Unterabtastung 355 00:26:46,574 --> 00:26:50,858 gibt es normalerweise auch mehrere äquivalente Formate, die aus trivialen Änderungen der Kanalandordnung there are usually also several equivalent formats that consist of trivial channel order 356 00:26:50,858 --> 00:26:55,966 oder Umpackungen bestehen, entweder aus ursprünglicher Bequemlichkeit auf einer speziellen 357 00:26:55,966 --> 00:27:00,352 Hardware oder manchmal nur aus guter alter Bosheit. 358 00:27:00,352 --> 00:27:04,692 Pixelformate werden durch einen eindeutigen Namen oder fourcc Code beschrieben. 359 00:27:04,692 --> 00:27:08,115 Es gibt eine Menge dieser und es macht keinen Sinn alle durchzugehen. 360 00:27:08,115 --> 00:27:13,704 Google ist Dein Freund. Achte drauf, dass fourcc Codes für Video-Rohdaten die Pixelanordnung und 361 00:27:13,704 --> 00:27:20,339 die Farbunterabtastung angeben, aber generell nichts bestimmtes über Farbplazierung und den Farbraum aussagen. 362 00:27:20,339 --> 00:27:25,807 Um eines zu wählen: YV12 video kann JPEG, MPEG-2 oder DV Farbplazierung verwenden, 363 00:27:25,807 --> 00:27:28,991 und eine von mehreren YUV Farbraum-Definitionen. 364 00:27:29,472 --> 00:27:33,913 Das beendet unsere nicht so schnelle und doch sehr unvollständige Tour von Video-Rohdaten. 365 00:27:33,913 --> 00:27:38,651 Das Gute ist, dass wir bereits eine Menge richtiger Arbeit mit diesem Überblick erledigen können. 366 00:27:38,651 --> 00:27:42,528 In vielen Situationen ist ein Videobild ein Bild im Video. 367 00:27:42,528 --> 00:27:46,451 Die Details machen viel aus, wenn man Software schreiben möchte, 368 00:27:46,452 --> 00:27:52,086 aber momentan bin ich zufrieden, dass der geschätzte Zuschauer sich grob der relevanten Details bewusst ist. 369 00:27:55,640 --> 00:27:59,230 Also. Wir haben Audiodaten. Wir haben Videodaten. 370 00:27:59,230 --> 00:28:03,246 Was übrig bleibt sind die bekannteren Nicht-Signaldaten und geradlinige Technik 371 00:28:03,246 --> 00:28:07,410 die Software-Entwicklern bekannt ist. Und viel davon! 372 00:28:07,928 --> 00:28:11,768 Klumpen von rohen Audio- und Video-Daten haben keine extern sichtbare Struktur, 373 00:28:11,768 --> 00:28:15,173 aber sie sind oft gleichmäßig gross. Wir könnten sie einfach zusammenketten 374 00:28:15,173 --> 00:28:18,097 in einer streng vorgegebenen Ordnung für Streaming und Speicherung 375 00:28:18,097 --> 00:28:21,040 und einige einfache Systeme machen das auch ungefähr. 376 00:28:21,040 --> 00:28:24,195 Komprimierte Bilder sind allerdings nicht notwendigerweise von vorhersehbarer Größe 377 00:28:24,195 --> 00:28:29,405 und wir wollen normalerweise flexibel sein in der Benutzung einer Reihe verschiedener Datentypen in Strömen. 378 00:28:29,405 --> 00:28:34,281 Wenn wir zufällige, formfreie Daten verketten, verlieren wir die Grenzen, die verschiedene Bilder 379 00:28:34,281 --> 00:28:37,871 voneinander trennt und wissen nicht unbedingt mehr welche Daten zu welchen Strömen gehören. 380 00:28:37,871 --> 00:28:42,192 Ein Strom braucht eine generalisierte Struktur um generell nützlich zu sein. 381 00:28:42,192 --> 00:28:46,606 Zusätzlich zu unseren Signaldaten haben wir auch unsere PCM- und Video-Parameter. 382 00:28:46,606 --> 00:28:49,752 Außerdem gibt es wahrscheinlich massig andere Metadaten, die wir auch handhaben wollen, 383 00:28:49,752 --> 00:28:55,415 so wie Audio-Titelinformationen und Video-Kapiteln und Untertiteln - alles wesentliche Komponenten von Rich Media. 384 00:28:55,415 --> 00:29:01,633 Es macht Sinn, diese Metadaten, d.h. Daten über die Daten, in den Medien selbst zu speichern. 385 00:29:01,633 --> 00:29:06,445 Speichern und Anordnen von formlosen Daten und separaten Metadaten ist der Job eines Containers. 386 00:29:06,445 --> 00:29:09,221 Container stellen ein Rahmenwerk für die Datenklumpen zur Verfügung, 387 00:29:09,221 --> 00:29:12,015 verschachteln und identifizieren mehrere Datenströme, 388 00:29:12,015 --> 00:29:15,337 stellen Zeitinformationen zur Verfügung, und speichern Metadaten nötig zum 389 00:29:15,337 --> 00:29:19,140 Prassen, Navigieren, Manipulieren und Darstellen der Medien. 390 00:29:19,140 --> 00:29:22,222 Generell kann jeder Container jede Art von Daten einschliessen. 391 00:29:22,222 --> 00:29:24,970 Und Daten können in jeden Container verpackt werden. 392 00:29:28,801 --> 00:29:32,391 In den letzten dreissig Minuten haben wir digitales Audio, Video, 393 00:29:32,391 --> 00:29:35,435 und ein wenig Geschichte, etwas Mathe und ein bisschen Technik abgedeckt. 394 00:29:35,435 --> 00:29:39,377 Wir haben kaum die Oberfläche angekratzt, aber es ist Zeit für eine wohlverdiente Pause. 395 00:29:41,107 --> 00:29:45,373 Es gibt so viel mehr zu besprechen, so hoffe ich, dass Sie sich in der nächsten Folge wieder zu mir gesellen werden. 396 00:29:45,373 --> 00:29:47,159 Bis dann --- Tschüss!