Latency hiding and high fidelity novel view synthesis on thin clients using decoupled streaming rendering from powerful servers

Hladký, Jozef

Please use this identifier to cite or link to this item: doi:10.22028/D291-37688

Title:	Latency hiding and high fidelity novel view synthesis on thin clients using decoupled streaming rendering from powerful servers
Author(s):	Hladký, Jozef
Language:	English
Year of Publication:	2022
DDC notations:	004 Computer science, internet 500 Science 600 Technology
Publikation type:	Dissertation
Abstract:	Highly responsive 3D applications with state-of-the-art visual fidelity have always been associated with heavy immobile workstation hardware. By offloading demanding computations to powerful servers in the cloud, streaming 3D content from the data center to a thin client can deliver high fidelity responsive experience that is indistinguishable from the content computed locally on a powerful workstation. We introduce methods suitable for this scenario that enable network latency hiding. In the first part, we introduce a novel high-dimensional space---the camera offset space---and show how it can help to identify an analytical potentially visible set of geometry valid for a range of camera translational and rotational offsets. We demonstrate an efficient parallel implementation of the visibility resolution algorithm which leads to a first-ever method for computing a PVS that is valid for an analytical range of camera offsets, is computable in real-time without the need of pre-processing or spatial data structure construction and requires only raw triangle stream as an input. In the second part of the thesis, we focus on capturing the scene appearance into structures that enable efficient encoding and decoding, transmission, low memory footprint, and high-fidelity high-framerate reconstruction on the client. Multiple strategies for shading sample distribution and texture atlas packing layouts are presented and analyzed for shading reconstruction quality, packing and compression efficiency. The third part of the thesis presents a data structure that jointly encodes both appearance and geometry into a texture atlas. The scene G-Buffer is processed to construct coarse low-resolution geometric proxies which capture the scene appearance and simple planar surfaces. These proxies can be locally augmented with high resolution data to capture complex geometry in sufficient detail, achieving efficient sample distribution and allocation. Capturing the scene from multiple views enables disocclusion support and allows network latency hiding on a thin client device. Reaktionsschnelle 3D-Anwendungen mit hochmoderner visueller Wiedergabetreue werden seit jeher mit schwerer, unbeweglicher Workstation-Hardware in Verbindung gebracht. Angesichts des aktuellen technologischen Trends, anspruchsvolle Berechnungen auf leistungsstarke Server in der Cloud auszulagern, sowie der zunehmenden Beliebtheit und Allgegenwärtigkeit von dünnen und tragbaren Geräten mit schwachen Rechenkapazitäten hat das Streaming von 3D-Inhalten aus dem Rechenzentrum auf einen Thin Client das Potenzial, ein reaktionsschnelles Erlebnis mit hoher Wiedergabetreue zu bieten, das sich nicht von den lokal auf einer leistungsstarken Workstation berechneten Inhalten unterscheiden lässt. Virtual-Reality-Anwendungen gehören zu den anspruchsvollsten Anwendungsfällen für dieses Ziel, da sie eine hochauflösende Stereovisualisierung mit hoher Geschwindigkeit in einem dünnen, ungebundenen Head-Mounted-Display-Format erfordern, bei dem der Benutzer extrem empfindlich auf Bewegungsverzögerungen reagiert. Das Haupthindernis, das die Immersion unterbricht, ist die Netzwerklatenz, die Streaming-Systemen innewohnt und die vor dem Benutzer verborgen werden muss. Eine Möglichkeit, die Latenz zu verbergen, ist ein Streaming-Rendering-Pipeline- Design, bei dem der Server Datenpakete berechnet und überträgt, die das Client-Gerät für das Upsampling der Framerate verwendet. In dieser Arbeit werden Methoden vorgestellt, die für dieses Szenario geeignet sind. Im ersten Teil betonen wir die Bedeutung der Identifizierung einer exakten potentiell sichtbaren Menge (PVS) von Geometrie und erklären die entscheidende Rolle, die diese in der skizzierten Streaming-Rendering-Pipeline spielt. Wir stellen einen neuartigen hochdimensionalen Raum vor - den Kamera-Offset-Raum - und zeigen, wie er helfen kann, eine analytische PVS zu identifizieren, die für eine Reihe von translatorischen und rotatorischen Kamera-Offsets gültig ist. Wir demonstrieren eine effiziente parallele Implementierung des Algorithmus zur Sichtbarkeitsauflösung, die zu einer erstmaligen Methode zur Berechnung einer PVS führt, die für einen analytischen Bereich von Kamera-Offsets gültig ist, in Echtzeit berechnet werden kann, ohne dass eine Vorverarbeitung oder die Konstruktion einer räumlichen Datenstruktur erforderlich ist, und nur einen rohen Dreiecksstrom als Eingabe benötigt. Im zweiten Teil der Arbeit konzentrieren wir uns auf die Erfassung des Erscheinungsbildes der Szene in Strukturen, die eine effiziente Kodierung und Dekodierung, Übertragung, einen geringen Speicherbedarf und eine originalgetreue Rekonstruktion mit hoher Bildwiederholrate auf dem Client ermöglichen. Es werden mehrere Strategien für die Verteilung von Schattierungsmustern und die Packungsanordnung von Texturatlanten vorgestellt und hinsichtlich der Qualität der Schattierungsrekonstruktion, der Packungsanordnung und der Komprimierungseffizienz analysiert. Die vorgestellten parallelen Implementierungen von Schlüsselschritten sowohl für den Server als auch für den Client zeigen ausreichende Frameraten und Wiedergabetreue für den Einsatz in einer Streaming-Pipeline. Der dritte Teil der Arbeit stellt eine Datenstruktur vor, die sowohl Aussehen als auch Geometrie in einem Texturatlas kodiert. Der G-Buffer der Szene wird verarbeitet, um grobe, niedrig aufgelöste geometrische Proxies zu konstruieren, die das Aussehen der Szene und einfache ebene Oberflächen erfassen. Diese Proxies können lokal mit hochauflösenden Daten ergänzt werden, um komplexe Geometrien ausreichend detailliert zu erfassen und eine effiziente Verteilung und Zuweisung von Proben zu erreichen. Die Erfassung der Szene aus mehreren Ansichten ermöglicht die Unterstützung der Disokklusion und das Verstecken der Netzwerklatenz auf einem Thin Client. Die vorgestellten Methoden eignen sich für das Streaming-Rendering-Szenario und berühren die Bereiche Geometrieverarbeitung, Textur-Mapping, Komprimierung und Kodierung, Vernetzung, Datenstrukturdesign, Szenendarstellung, parallele Algorithmen und Rendering. Daher gibt es zahlreiche Möglichkeiten, die vorgestellte Forschung fortzusetzen und zu verbessern, von denen einige am Ende dieser Arbeit skizziert werden.
Link to this record:	urn:nbn:de:bsz:291--ds-376882 hdl:20.500.11880/34640 http://dx.doi.org/10.22028/D291-37688
Advisor:	Seidel, Hans-Peter
Date of oral examination:	16-Aug-2022
Date of registration:	6-Dec-2022
Faculty:	MI - Fakultät für Mathematik und Informatik
Department:	MI - Informatik
Professorship:	MI - Keiner Professur zugeordnet
Collections:	SciDok - Der Wissenschaftsserver der Universität des Saarlandes

Files for this record:

File	Description	Size	Format
StreamingRenderingThesis.pdf	Main article	474,26 MB	Adobe PDF	View/Open

Export: BibTex

This item is licensed under a Creative Commons License