Ich schaue 'AI aufgewertet' Star Trek und es ist nicht schrecklich

Jahrelang haben engagierte Star Trek Fans KI verwendet, um eine Version der gefeierten Serie Deep Space 9 zu erstellen, die auf modernen Fernsehern vernünftig aussieht. Es klingt ein wenig lächerlich, aber ich war überrascht festzustellen, dass es tatsächlich ziemlich gut ist - sicherlich gut genug, dass Medienunternehmen aufmerksam werden sollten (anstatt mir nur Urheberrechtsverletzungen zu schicken).

Früher in diesem Jahr wurde ich inspiriert, die Show anzusehen, ein Fanliebling, den ich gelegentlich im Fernsehen sah, als er ausgestrahlt wurde, aber nie wirklich darüber nachdachte. Nachdem ich die offenbar unvergessliche Neuauflage von Star Trek: The Next Generation gesehen hatte, fand ich, dass ich auch das weniger galaxisüberschreitende, mehr ensemble-fokussierte Geschwisterchen noch einmal besuchen sollte. Vielleicht dachte ich, es befand sich ebenfalls mitten in einem umfangreichen Remastering-Prozess. Nope!

Leider musste ich herausfinden, dass, obwohl das TNG Remaster technisch betrachtet ein riesiger Triumph war, das Timing mit dem Aufkommen von Streaming-Diensten zusammenfiel, was dazu führte, dass das teure Blu-ray-Set schlecht verkauft wurde. Der Prozess kostete mehr als 10 Millionen Dollar, und wenn es sich nicht für die für die Franchises am zuverlässigsten beliebte Serie ausgezahlt hat, gibt es keine Möglichkeit, dass die Verantwortlichen dies für DS9, beliebt, aber bei weitem weniger rentabel, wiederholen.

Das bedeutet, dass, wenn Sie DS9 (oder auch Voyager) sehen möchten, müssen Sie es in etwa in der Qualität sehen, in der es in den 90er Jahren ausgestrahlt wurde. Wie TNG wurde es auf Film gedreht, aber auf Video-Band in ungefähr 480p-Auflösung umgewandelt. Und obwohl die DVDs eine bessere Bildqualität als die Ausstrahlungen boten (aufgrund von Dingen wie Pulldown und Farbtiefe), waren sie letztendlich immer noch durch das Format begrenzt, in dem die Show fertiggestellt wurde.

Nicht großartig, oder? Und das ist ungefähr das Beste, besonders am Anfang. Bildgutschrift: Paramount

Für TNG kehrten sie zu den Originalnegativen zurück und bearbeiteten im Grunde genommen die gesamte Show neu, überarbeiteten Effekte und Kompositbild, was hohe Kosten und Aufwand mit sich brachte. Vielleicht passiert das im 25. Jahrhundert für DS9, aber im Moment gibt es keine Pläne, und selbst wenn sie es morgen ankündigen würden, würden Jahre vergehen, bevor es herauskommt.

Also: Als potenzieller DS9-Zuschauer, der sich von der wunderschönen TNG-Neuscannung verwöhnen lässt und der die Idee ablehnt, dass ein schäbiges NTSC-Ausstrahlungsbild auf meinem schönen 4K-Bildschirm gezeigt wird, wo lässt das mich? Es stellt sich heraus: nicht allein.

Mutig skalieren…

Jahrelang haben Fans von Shows und Filmen, die von HD-Zügen zurückgelassen wurden, heimlich daran gearbeitet, bessere Versionen zu finden und zu verteilen als das, was offiziell verfügbar ist. Das berühmteste Beispiel ist die Original-Star-Wars-Trilogie, die durch den offiziellen Neuausgabe-Prozess von George Lucas unwiderruflich beeinträchtigt wurde, was Fans dazu veranlasste, nach alternativen Quellen für bestimmte Szenen zu suchen: Laserdiscs, Limited Editions, Werbematerial, vergessene Archivrollen und so weiter. Diese völlig inoffiziellen Ausgaben sind ein ständiges Arbeitsprojekt und haben in den letzten Jahren begonnen, neue KI-basierte Tools einzusetzen.

Diese Tools handeln hauptsächlich von intelligenter Hochskalierung und Rauschunterdrückung, wobei letztere im Star-Wars-Universum von größerer Bedeutung ist, da einige der originalen Filmaufnahmen unglaublich körnig oder degradiert sind. Aber Sie könnten denken, dass das Hochskalieren, das Vergrößern eines Bildes, ein relativ einfacher Prozess ist - warum KI einbeziehen?

Sicherlich gibt es einfache Möglichkeiten, ein Bild hochzuskalieren oder die Auflösung eines Videos zu erhöhen. Das geschieht automatisch, wenn Sie ein 720p-Signal auf einen 4K-Fernseher senden, zum Beispiel. Das 1280x720 Pixel Auflösungsbild erscheint nicht winzig in der Mitte des 3840x2160 Pixel Bildschirms - es wird in jede Richtung um einen Faktor von 3 gestreckt, damit es auf den Bildschirm passt. Aber während das Bild größer erscheint, ist es immer noch in 720p-Auflösung und Detail.

Ein einfacher, schneller Algorithmus wie bilineare Filterung macht ein kleineres Bild auf einem großen Bildschirm akzeptabel, auch wenn es keine genaue 2x- oder 3x-Streckung ist, und es gibt einige Skalierungsmethoden, die mit bestimmten Medien besser funktionieren (zum Beispiel Animation oder Pixelkunst). Aber insgesamt könnte man durchaus zu dem Schluss kommen, dass bei einem aufwendigeren Prozess nicht viel gewonnen werden kann.

Und das stimmt zum Teil, bis man sich in den fast grenzenlosen Kaninchenbau begibt, einen verbesserten Hochskalierungsprozess zu schaffen, der tatsächlich Details hinzufügt. Aber wie kann man Details 'hinzufügen', die das Bild nicht schon enthält? Nun, es enthält sie - oder besser gesagt, es impliziert sie.

Denken Sie an ein altes Fernsehgerät, das ein Bild eines grünen Kreises auf einem Hintergrund zeigt, der von Blau nach Rot verblasst (für dieses Beispiel habe ich diesen CRT-Filter für eine grundlegende Nachbildung verwendet).

Sie können sehen, dass es sich um einen Kreis handelt, aber wenn Sie genau hinsehen, ist es tatsächlich ziemlich unscharf, wo sich der Kreis und der Hintergrund treffen, richtig, und in der Farbverlaufstufen? Es ist begrenzt durch die Auflösung und durch den Video-Codec und die Übertragungsmethode, ganz zu schweigen von der Subpixel-Anordnung und den Phosphoren eines alten Fernsehgeräts.

Aber wenn ich Sie bitten würde, dieses Bild in hoher Auflösung und Farbe neu zu erstellen, könnten Sie dies tatsächlich mit besserer Qualität tun, schärfer und mit sanfteren Farben. Wie? Weil im Bild mehr Informationen implizit enthalten sind als nur das, was Sie sehen. Wenn Sie sich einigermaßen sicher sind, was da war, bevor diese Details verloren gingen, als es codiert wurde, können Sie sie zurücksetzen, so wie hier:

Es wird viel mehr Detail im Bild getragen, das nicht offensichtlich sichtbar ist - also fügen wir es nicht hinzu, sondern stellen es wieder her. In diesem Beispiel habe ich die Änderung extrem gemacht, um eine Wirkung zu erzielen (es ist eigentlich ziemlich irritierend), aber bei fotografischer Abbildung ist es normalerweise deutlich weniger stark.

Intelligente Vergrößerung

Das obige Beispiel ist eine sehr einfache Demonstration der Detailwiederherstellung und es ist tatsächlich etwas, das seit Jahren systematisch in Restaurierungsprojekten in verschiedenen digitalen und analogen Bereichen durchgeführt wird. Aber während Sie sehen können, dass es möglich ist, ein Bild mit mehr offensichtlichen Details als das Original zu erstellen, sehen Sie auch, dass dies nur möglich ist, wenn eine bestimmte Tiefe des Verständnisses oder der Intelligenz über das Bild vorliegt. Eine einfache mathematische Formel reicht dafür nicht aus. Zum Glück sind wir längst über die Zeit hinaus, in der eine einfache mathematische Formel unser einziges Mittel zur Verbesserung der Bildqualität war.

Von Open-Source-Tools bis hin zu Markenprodukten von Adobe und Nvidia ist Upscaling-Software inzwischen viel verbreiteter geworden, da Grafikkarten, die in der Lage sind, die komplexen Berechnungen durchzuführen, die für diese Modelle notwendig sind, zugenommen haben. Die Notwendigkeit, einen Clip oder Screenshot von niedriger Auflösung auf hohe Auflösung hochzustufen, ist heutzutage in Dutzenden von Branchen und Kontexten alltäglich.

Videobearbeitungssuiten integrieren jetzt komplexe Bildanalyse- und kontextsensitive Algorithmen, so dass z. B. Haut oder Haare anders behandelt werden als die Oberfläche von Wasser oder der Rumpf eines Raumschiffs. Jeder Parameter und Algorithmus kann individuell je nach Bedarf des Benutzers oder der Bilder, die hochskaliert werden sollen, angepasst und optimiert werden. Zu den am häufigsten verwendeten Optionen gehört Topaz, eine Reihe von Videobearbeitungswerkzeugen, die maschinelles Lernen einsetzen.

Bildgutschrift: Topaz AI

Das Problem bei diesen Tools ist zweifach. Erstens reicht die Intelligenz nur bis zu einem gewissen Grad aus: Einstellungen, die für eine Szene im Weltraum perfekt sein könnten, sind für eine Innenszene oder einen Dschungel oder einen Boxkampf völlig ungeeignet. Tatsächlich erfordern selbst mehrere Aufnahmen in einer Szene verschiedene Ansätze: unterschiedliche Winkel, Merkmale, Haartypen, Beleuchtung. Das Finden und Festlegen dieser optimalen Einstellungen ist viel Arbeit.

Zweitens sind diese Algorithmen nicht billig oder (besonders bei Open-Source-Tools) einfach. Sie bezahlen nicht nur für eine Topaz-Lizenz - Sie müssen sie auf etwas ausführen, und jedes Bild, das Sie damit bearbeiten, verbraucht eine nicht unerhebliche Menge an Rechenleistung. Die Berechnung der verschiedenen Parameter für einen einzelnen Frame könnte einige Sekunden dauern, und wenn Sie dann bedenken, dass es 30 Frames pro Sekunde für 45 Minuten pro Episode gibt, laufen Sie plötzlich Gefahr, Ihre 1000-Dollar-GPU stundenlang an ihre Grenzen zu bringen - vielleicht nur um die Ergebnisse wegzuwerfen, wenn Sie eine bessere Kombination von Einstellungen etwas später finden. Oder vielleicht bezahlen Sie für die Berechnung in der Cloud, und nun hat Ihr Hobby eine weitere monatliche Gebühr.

Glücklicherweise gibt es Menschen wie Joel Hruska, für die dieser mühsame, kostspielige Prozess ein Herzensprojekt ist.

„Ich habe versucht, die Show auf Netflix anzusehen“, sagte er mir in einem Interview. „Es war abscheulich.“

Wie ich und viele (aber nicht allzu viele) andere erwartete er eine offizielle Neufassung dieser Show, so wie die Star-Wars-Fans eine umfassende Neufassung der Original-Star-Wars-Trilogie erwarteten. Keine dieser Gemeinschaften bekam, was sie wollte.

„Ich warte seit 10 Jahren darauf, dass Paramount es macht, und sie haben es nicht getan“, sagte er. Also schloss er sich den anderen, immer besser ausgerüsteten Fans an, die begannen, die Dinge selbst in die Hand zu nehmen.

„Das soll kein Prahlerei sein, aber ich werde nicht lügen“, begann er. „Ich habe manchmal 40-60 Stunden pro Woche daran gearbeitet. Ich habe die Episode 'Sacrifice of Angels' über 9.000 Mal codiert. Ich habe 120 Handbrake-Codierungen gemacht - Ich habe jeden einstellbaren Parameter getestet, um zu sehen, welche Ergebnisse er bringt. Ich musste 3,5 Terabyte für einzelne Episoden aufwenden, nur für die Zwischendateien. Ich habe das in einem enormen Maße durchgezwungen sehr viele Fehler begangen.“

Er zeigte mir eine Episode, die er codiert hatte, die tatsächlich aussah, als ob sie von einem Expertenteam ordnungsgemäß remastered worden wäre - nicht so, dass man denkt, sie sei in 4K und HDR aufgenommen worden, sondern nur, damit man nicht ständig denkt: 'Mein Gott, sah das Fernsehen wirklich so aus?' die ganze Zeit.

Bildgutschrift: Joel Hruska/Paramount

Hört sich übertrieben an, oder? Aber es ist auch eine interessante Demonstration der Möglichkeiten und Grenzen des KI-Upscalings. Die Intelligenz ist sehr begrenzt, mehr besorgt über Pixel, Konturen und Verläufe als über die weit subjektiveren Qualitäten, was 'gut' oder 'natürlich' aussieht. Und so wie das Bearbeiten eines Fotos auf eine Weise jemandes Augen hervorheben, aber seine Haut ausblasen könnte, und andersherum, wird ein iterativer und mehrschichtiger Ansatz benötigt.

Der Prozess ist also bei weitem nicht so automatisiert, wie man erwarten würde - es geht um Geschmack, Vertrautheit mit der Technik und glückliche Zufälle. Mit anderen Worten, es ist eine Kunst.

„Je mehr ich gemacht habe, desto mehr habe ich entdeckt, dass man Details aus unerwarteten Orten herausholen kann“, sagte er. „Sie nehmen diese verschiedenen Encodes und mischen sie, Sie ziehen Details auf verschiedene Weisen heraus. Einer ist für Schärfe und Klarheit, der nächste ist, um einige Schäden zu heilen. Aber wenn Sie sie übereinander legen, bekommen Sie eine individuelle Version des Originalvideos, die bestimmte Aspekte betont und jede Schäden, die Sie verursacht haben, zurückgeführt.”

„Sie sollen Video nicht 17 Mal durch Topaz aktualisieren; es wird missbilligt. Aber es funktioniert! Das alte Regelwerk gilt nicht mehr“, sagte er. „Wenn Sie versuchen, den einfachsten Weg zu gehen, werden Sie ein abspielbares Video bekommen, aber es wird Bewegungsfehler haben [dh Videofehler]. Wie sehr stört Sie das? Manchen Leuten ist das egal! Aber ich mache das für Leute wie mich.“

Wie bei so vielen Leidenschaftsprojekten ist das Publikum begrenzt. „Ich wünschte, ich könnte meine Arbeit veröffentlichen, das wünsche ich mir wirklich“, gab Hruska zu. „Aber damit würde ich mir ein Ziel auf den Rücken malen.“ Vorläufig ist es für ihn und Mit-Trek-Fans, sein Werk zu genießen, wenn auch nicht geheim, zumindest plausible Abstreitbarkeit.

Echtzeit mit Odo

Jeder kann sehen, dass KI-unterstützte Werkzeuge und Dienste auf dem Weg zur Zugänglichkeit sind. Die Art der Bildanalyse, die Google und Apple einst in der Cloud durchführen mussten, kann jetzt auf Ihrem Telefon erledigt werden. Die Sprachsynthese kann ebenfalls lokal durchgeführt werden, und bald könnten wir eine ChatGPT-ähnliche konversationsfähige KI haben, die nicht nach Hause telefonieren muss. Was für ein Spaß das sein wird!

Dies wird durch mehrere Faktoren ermöglicht, einer davon sind effizientere dedizierte Chips. GPUs haben ihre Aufgabe gut erledigt, waren aber ursprünglich für etwas anderes konzipiert. Jetzt werden kleine Chips von Grund auf neu entwickelt, um die Art der Mathematik durchzuführen, die das Herz vieler maschineller Lernmodelle darstellt, und sie werden zun