우리는 Neural Global Illumination이라는 새로운 방법을 제안해요. 이 방법은 정적 장면에서 동적 시점과 영역 조명을 사용하여 빠르게 전체 global illumination을 렌더링하는 방법이에요. 이 방법의 핵심 아이디어는 각 shading point에서 global illumination으로의 복잡한 매핑을 deep rendering network를 사용해 모델링하는 거예요. 이 매핑을 효율적으로 학습하기 위해, 우리는 각 shading point의 속성, 시점 정보, 그리고 고품질의 fitting을 가능하게 하는 조합 조명 표현을 포함한 neural-network-friendly한 입력 표현을 제안해요. 고주파수 global illumination 효과를 합성하기 위해, 우리는 저차원 입력을 positional encoding을 통해 고차원 공간으로 변환하고, 렌더링 네트워크를 깊은 fully-connected network로 모델링해요. 또한, 화면 공간에서 객체 간의 global 정보를 각 shading point에 공유하기 위해 screen-space neural buffer를 렌더링 네트워크에 입력해요. 우리는 다양한 장면에서 복잡하고 모든 주파수의 global illumination 효과를 보여주는 multiple-bounce glossy interreflection, color bleeding, caustics 등을 렌더링하는 데 우리의 neural global illumination 방법을 시연했어요.
Index Terms-Global illumination, deep learning
1 INTRODUCTION
빠른 global illumination (GI)은 중요한 연구 문제지만 도전적이에요. 사실적인 렌더링에서 global illumination은 color bleeding, glossy interreflection, caustics 같은 많은 사실적인 시각 효과를 제공해요. 기존의 global illumination 렌더링 방법은 오프라인 렌더링 방법과 상호작용 렌더링 방법으로 분류할 수 있어요. 고전적인 오프라인 렌더링 방법인 path tracing [26], [33], [63]과 photon mapping [18], [19], [25]은 사실적인 렌더링 품질을 달성할 수 있답니다. 하지만, 이러한 방법들은 시간이 많이 걸리고, 단일 noise-free 프레임을 렌더링하는 데 몇 분에서 몇 시간이 걸리기 때문에 상호작용 애플리케이션에는 적합하지 않아요.
기존의 interactive global illumination 접근법은 세 가지 범주로 나눌 수 있어요. 첫 번째 범주는 screen-space rendering 방법[40], [48], [49], [68]이나 volume-based 방법[8], [28], [29] 같은 approximated 방법을 포함해요. 이런 방법들은 보통 low-frequency global illumination 효과에 제한되죠. 두 번째 범주는 filtering[51]이나 denoising[5]을 활용해서, 낮은 sample에서 생성된 noisy path-traced 이미지를 고품질 이미지로 재구성해요.
율로 생성된 noisy path-traced 이미지를 고품질 이미지로 재구성해요. 하지만 이런 방법들은 ray tracing의 높은 비용 때문에 고품질 global illumination을 실시간으로 구현할 수 없어요. 세 번째 범주는 precomputation 기반 방법으로, lightmaps[23]와 precomputed radiance transfer[54]을 포함해요. 하지만 기존의 precomputation 기반 방법들은 보통 특정 조건, 즉 static lighting[23], [58]이나 point light sources[47]에 제한됩니다.
이러한 한계를 해결하기 위해, 우리는 정적 장면에서 동적인 영역 조명 아래 풍부한 global illumination 효과를 생성하는 neural global illumination을 제안해요. 우리 방법의 동기는 global illumination 문제에 deep learning을 적용하여 오프라인과 인터랙티브 방법 간의 격차를 줄이는 것이에요. 이 방법의 핵심 아이디어는 입력 장면 정보(각 shading point의 속성, viewpoint, incident lighting 정보 포함)에서 global illumination으로의 복잡한 매핑을 deep neural network를 사용해 표현하는 것이랍니다. 이 방법은 고전적인 precomputation 기반 방법들(e.g., PRT, lightmaps, light probes)의 발전된 형태로 볼 수 있으며, glossy materials와 dynamic area lighting에 대한 완전한 global illumination을 지원해요. 학습 데이터 생성과 네트워크 학습은 장면의 radiance fields를 샘플링하고 맞추는 역할을 해요. 학습된 네트워크는 런타임 렌더링 중에 고주파수 global illumination을 생성할 수 있는 compact한 학습 기반 장면 표현이에요. 이 방법은 precomputed global illumination 기술에 의존하는 인터랙티브 애플리케이션에 적용할 수 있어요 (PRT와 유사한 구성, 즉 정적 장면에 동적 조명).
우리는 global illumination을 모델링하기 위해 deep fully-connected neural network(또는 multilayer perceptron, MLP라고도 불려요)를 사용해요. Global illumination은 고차원적이고 매우 비선형적인 함수라서, compact한 neural network로 고주파수 global illumination 효과를 효율적으로 학습하는 것은 쉽지 않답니다. 우리는 세 가지 전략을 소개해요.
Fig. 1. Neural global illumination을 사용한 현실적인 렌더링 결과. (a) 다중 glossy interreflection이 있는 주방, (b) 거울 반사와 glossy 반사가 있는 거실, (c) 강한 간접 조명과 거울 반사가 있는 욕실-2, (d) 색상 번짐, glossy interreflection, caustics가 있는 Cornell box.
문제를 해결하기 위한 첫 번째 전략은 positional encoding 기법을 사용해서 저차원 입력 벡터를 고차원 공간으로 매핑하는 거예요 [59], [62]. Positional encoding은 MLP가 고주파 global illumination을 성공적으로 학습할 수 있게 해주거든요. 두 번째 전략은 다양한 lighting cues를 활용하는 combinational lighting representation을 통해 입사 조명을 표현하는 거예요. 이 방법은 복잡한 장면에서 dynamic area light sources와 함께 우리 방법을 일반화하는 데 중요해요. 마지막 전략은 convolutional neural network (CNN)를 사용해서 스크린 공간에서 shading 포인트 간의 글로벌 정보를 공유하는 거예요. 이렇게 하면 receptive fields가 커지고, 학습 과정이 더 쉽고 견고해진답니다.
우리 방법은 정적 장면에서 dynamic area lighting과 함께 모든 주파수의 global illumination을 22 FPS로 생성할 수 있어요. 우리 방법은 glossy interreflection (예: 그림 1a와 1b), caustics (예: 그림 1d), mirror reflection (예: 그림 1b와 1c), 그리고 color bleeding (예: 그림 1d) 같은 많은 현실적인 global illumination 효과를 지원해요. 게다가, 우리 screenspace CNN은 fully-convolutional 디자인 덕분에 자연스럽게 고해상도를 지원하고, MLP 렌더링 네트워크는 각 shading 포인트에 대해 독립적으로 global illumination을 생성할 수 있어요. 그래서 재학습 없이도 고해상도 이미지 생성으로 확장할 수 있답니다. 제안된 효율적인 학습 기반 표현 덕분에, 우리 방법의 저장 비용은 장면당 55.9 MB에 불과해서 기존의 precomputed-based 방법에 비해 컴팩트해요.
요약하자면, 우리의 주요 기여는 다음과 같아요.
dynamic area light sources와 함께 global illumination을 상호작용적으로 렌더링하기 위한 신중하게 설계된 프레임워크입니다.
직접 조명과 다른 스크린 공간 버퍼만으로 현실적인 global illumination을 생성하는 엔드 투 엔드 방법으로, 이는 기존의 어떤 렌더러로도 쉽게 렌더링할 수 있어요.
동적 영역 광원에 적합한 조합형 입사 조명 표현 방식이에요.
렌더링 네트워크에 글로벌 조명을 효율적으로 계산하는 방법을 알려주는 화면 공간 신경 버퍼가 있어요.
2 RELATED WORK
이 섹션에서는 인터랙티브 글로벌 조명과 신경 렌더링에 대한 최근 연구를 살펴볼 거예요.
2.1 Precomputed Global Illumination
사전 계산된 복사 전송(PRT)
서울과학기술대학교(SNUT)에서 허가된 라이선스 사용입니다. IEEE Xplore에서 2026년 1월 14일 06:32:25 UTC에 다운로드되었습니다. 제한 사항이 적용됩니다.
PRT [41], [46], [54], [55]에서는 각 쉐이딩 포인트에 대한 빛의 전달을 미리 계산해서 기저 함수의 계수로 저장해요. 실행 시점의 직접/글로벌 조명은 점곱으로 줄어들게 되죠. 초기 방법들은 조명을 구면 조화 함수로 표현하고 저주파 글로벌 조명 효과만 지원했어요. 이후의 방법들 [16], [65]은 웨이블릿이나 구면 가우시안을 조명 기저로 사용해서 모든 주파수의 글로벌 조명을 구현했어요. 하지만, 이 모든 방법은 거리 조명을 가정하고 있어요. Wang과 Ramamoorthi [64]는 균일한 다각형 면적 조명에서 구면 조화 계수를 위한 새로운 분석적 유도를 제시했어요. 최근에 Wu 등 [66]은 구면 조화 계수의 공간적 기울기에 대한 분석적 공식을 제안해서 PRT가 실시간으로 많은 다각형 면적 조명을 지원할 수 있게 했어요. 하지만, 기존의 PRT 기반 방법들 [32], [64], [66]은 지역 광원을 지원하더라도 고주파 글로벌 조명을 잘 처리하지 못해요.
Lightmaps와 Light Probes
Lightmap은 미리 계산된 diffuse global illumination을 저장하고, 실행 시점에 이를 보간하여 global illumination을 생성해요. 이 lightmap은 radiosity [6]나 path tracing [26] 같은 오프라인 렌더링 알고리즘으로 생성할 수 있답니다. 비확산 물체의 경우, 실시간 global illumination을 생성하기 위해 light probe가 종종 사용돼요. light probe는 Greger et al. [17]에 의해 처음 소개되었고, 동적 diffuse 물체에 대한 global illumination을 지원해요. 최근에는 McGuire et al. [36]이 정적 장면에서 전체 light field와 가시성을 저장하고 실시간 global illumination을 지원하는 light fields probe를 제안했어요. Rodriguez et al. [50]은 glossy light paths를 저장하는 glossy light probes를 발표했어요. 이 glossy lighting은 미리 계산된 glossy light probes에서 재투영되어 diffuse lighting에 추가되어 최종 global illumination을 생성해요. 하지만, 이 모든 방법은 정적 조명에만 제한돼요. 반면에, 우리 방법은 동적 영역 조명으로 전체 global illumination을 생성할 수 있답니다.
Regression-Based Global Illumination
Ren et al. [47]은 정적 장면에서 각 shading point의 radiance fields를 모델링하기 위해 radiance regression function을 제안했어요. 그들은 점 조명만 고려하지만, 우리 방법은 동적 영역 조명이 있는 장면에 대해 전체 global illumination을 생성할 수 있어요. 동적 영역 조명을 지원하기 위해, 우리는 입사 조명을 더 효율적으로 표현하는 조합 조명 표현을 제안해요. 게다가, Ren et al. [47]과는 달리,
우리는 실행 시점에 복잡한 공간 데이터 구조에 의존하지 않고, 단일 네트워크를 사용하여 전체 장면의 radiance fields를 맞춰요.
2.2 Screen Space Global Illumination
클래식 스크린 공간 접근법
클래식 스크린 공간 전역 조명은 화면 공간 버퍼에서 대략적인 전역 조명 효과를 생성하기 위한 별도의 후처리 단계예요. Dachsbacher와 Stamminger [9]는 반사 그림자 맵 기법을 제안했는데, 이는 클래식 그림자 맵을 확장하여 확산 물체에 대한 단일 반사 간접 조명을 처리할 수 있게 했어요. Ritschel 등 [48]은 스크린 공간 앰비언트 오클루전을 확장하여 방향성 그림자와 확산 색상 블리딩 같은 더 많은 간접 조명 효과를 처리할 수 있게 했어요. 하지만, 이러한 방법들은 지역 간접 조명에 대한 대략적인 결과만을 생성하는 데 제한적이에요. Robison과 Shirley [49]는 런타임에 완벽한 반사 버퍼를 블러 처리하여 흐릿한 반사와 부드러운 그림자를 생성하는 방법을 제안했어요. 하지만 여전히 광택 있는 상호 반사에서는 아티팩트가 발생해요.
학습 기반 스크린 공간 접근법 학습 기반 스크린 공간 전역 조명 접근법은 여러 화면 버퍼를 입력으로 받아, 입력에서 직접 전역 조명을 예측해요. Nalbach 등 [40]은 화면 공간 버퍼에서 간접 조명을 예측할 수 있는 Deep Shading 프레임워크를 제안했어요. 최근에 Xin 등 [68]은 확산 장면에 대한 단일 반사 간접 조명을 생성하는 경량 신경망을 제안했어요. 하지만, 모든 스크린 공간 전역 조명 접근법과 마찬가지로, 화면 공간 정보만으로 전역 조명을 합성하는 것은 매우 제약이 적고 모호한 문제예요. 화면 공간 버퍼에서 전역 조명으로의 매핑은 하나의 입력에 여러 출력을 가질 수 있는 매핑이라 신경망이 효율적으로 학습할 수 없어요. 게다가, 이러한 방법들은 여러 확산 물체 간의 색상 블리딩이나 광택 있는 상호 반사 같은 완전한 전역 조명 효과를 생성하지 못해요. 우리 방법은 동적 영역 조명이 있는 정적 장면에서 고품질의 완전한 전역 조명을 생성할 수 있어요.
2.3 실시간 레이 트레이싱
최신 GPU는 ray tracing 코어가 내장되어 있어서, CPU 기반의 path tracing에 비해 훨씬 빠른 path tracing을 지원해요 [67]. 실시간 ray tracing(RTRT)은 신경망 기반의 denoiser를 사용해서 [2], [5], [69], GPU path tracing으로 생성된 노이즈가 있는 이미지를 제거하죠. 이때, 픽셀당 샘플 수가 매우 적어서 보통 한 샘플만 사용해요. 하지만 고전적인 RTRT는 여러 번 반사되는 광택 반사와 같은 고주파수 global illumination을 생성하는 데 실패해요. 픽셀당 한 샘플로는 이런 복잡한 빛의 이동을 처리하기에 충분하지 않거든요. 최신 denoiser도 이런 경우에는 적합하지 않답니다.
최근에 Bitterli 등 [4]은 공간 및 시간 영역에서 인근 샘플을 활용하여 실시간 ray tracing을 위한 새로운 알고리즘(ReSTIR)을 제안했어요. ReSTIR은 많은 조명이 있는 장면에서 고성능의 직접 조명 렌더링을 지원해요. 하지만 ReSTIR은 직접 조명에 한정되어 있고, 쉽게 global illumination으로 확장할 수는 없어요. 동시에, Müller 등 [39]은 신경망을 이용한
radiance cache를 path tracing 렌더링 중에 학습하는 방법을 제안했어요. 하지만 NRC는 그림자나 caustics처럼 지역 표면 특징과 관련 없는 고주파수 global illumination 효과를 포착하지 못해요. 실시간 성능을 달성하기 위해 NRC는 딥러닝 기반의 실시간 denoiser [20]에 의존해서 노이즈 없는 이미지를 생성해요. 최신 denoising 알고리즘은 광택 반사나 caustics 같은 고주파수 간접 조명을 재구성하는 데 실패하죠. 그래서 NRC는 denoising 후에 고주파수 global illumination 효과에 대해 흐릿한 결과를 생성하게 돼요. 반면에, 우리 방법은 caustics(그림 1d에 표시된 것처럼) 같은 고주파수 global illumination을 지원하고, denoiser를 적용하지 않고도 실시간으로 노이즈 없는 결과를 생성할 수 있어요. 게다가, NRC는 높은 성능을 달성하기 위해 많은 복잡한 엔지니어링이 필요하지만, 우리 방법은 기존의 렌더링 엔진과 딥러닝 프레임워크에 특별한 엔지니어링 최적화 없이도 매끄럽게 통합될 수 있답니다.
2.4 Neural Rendering
딥러닝과 컴퓨터 그래픽스를 결합하는 기술이 빠르게 발전하고 있어요. Neural rendering은 전통적인 컴퓨터 그래픽스 연구 문제들에 성공적으로 활용되고 있답니다. 예를 들어, appearance modeling [10], [13], [35], image-based rendering [14], [37], [61], scene representation [12], [15], 그리고 light transport [38], [71] 같은 분야에서요. 이번 리뷰에서는 neural rendering에서의 빛 표현에 초점을 맞출 거예요. 더 자세한 내용은 neural rendering에 대한 개요를 참고하세요 [60].
효율적인 조명 표현은 동적 조명을 사용하는 사실적인 신경 렌더링에 매우 중요해요. 조명 표현의 목표는 신경망에 입사 조명에 대한 정보를 제대로 제공하는 것이랍니다. 다양한 조명 설정에 맞춰 여러 가지 조명 표현 방식이 제안되었어요. Ren 등 [47]은 점광원의 좌표로 입사 점 조명을 인코딩하는 방법을 제안했어요. 광원의 위치는 각 음영 지점에 전역 조명 정보를 제공하며, 점광원에는 충분하답니다. 하지만 면광원은 위치만으로는 결정할 수 없어요. Sun 등 [57]은 자연 조명 아래에서 인간의 얼굴을 다시 조명하고, 저해상도 환경 맵으로 조명을 모델링했어요. Granskog 등 [15]은 기하학, 재질, 조명을 분리하는 신경 장면 표현을 제안했어요. 조명은 간결한 신경 벡터로 표현되었답니다. 하지만 환경 맵과 분리된 신경 벡터 모두 우리 설정에는 효율적이지 않아요. 최근 Gao 등 [14]은 이미지 기반 재조명을 위한 조명 표현으로 방사선 큐를 제안했어요. 방사선 큐는 이미지 공간의 입사 조명 표현으로, 지역 점 조명과 먼 환경 조명 같은 다양한 조명에 적합해요. 하지만 이런 화면 공간 표현의 한계는 지역 조명에 중요한 전역 조명 설명이 부족하다는 점이에요. 우리는 면광원의 입사 조명 표현에 집중하고, 효율적인 조명 표현이 동적 입사 조명과 함께 정확한 전역 조명을 가능하게 해요. 우리는 전역 조명 정보와 화면 공간 표현을 결합한 조명 표현을 제안합니다.
radiance caching (NRC) 방법은 동적인 장면에서 글로벌 조명을 빠르게 렌더링하기 위한 방법이에요. 동시에 진행된 연구에서 Diolatzis 등 [11]은 효율적인 온라인 Markov-Chain-Monte-Carlo 기반 접근법을 제안했어요. 이 문서는 서울과학기술대학교에서 제한된 라이선스로 허가된 사용자만 사용할 수 있습니다. IEEE Xplore에서 2026년 1월 14일 06:32:25 UTC에 다운로드되었습니다. 제한 사항이 적용됩니다.
그림 2. Neural Global Illumination의 개요입니다. 입력 Iₚ는 각 음영 지점의 속성 g(p) = mₚ}, 뷰 정보 wᵥ, 그리고 영역 조명 정보 = {Lₐ(p), K를 포함해요. 먼저, 입력 Iₚ를 위치 인코딩을 통해 고차원 공간으로 변환하여 인코딩된 특징 Г(Iₚ)를 얻어요. 다음으로, 합성곱 신경망 C를 통해 화면 공간 신경 버퍼 Bₚ를 생성합니다: Bₚ = C(Iₚ). 마지막으로, 원래 입력 Iₚ, 위치 인코딩된 특징 Γ(Iₚ), 화면 공간 신경 버퍼 Bₚ를 연결하여 렌더링 네트워크 R에 입력해 간접 조명 L* (p)를 예측해요. 예측된 간접 조명 L* (p)와 직접 조명 Ld(p)를 더하면 최종 렌더링 이미지가 만들어집니다.
훈련 데이터 생성이에요. 신경 렌더러는 명시적 매개변수화된 장면 표현과 결합되어 동적인 장면에서 글로벌 조명을 렌더링할 수 있어요. Rainer 등 [45]은 정적 장면에서 동적 환경 조명 하의 글로벌 조명 렌더링을 위한 신경 PRT를 제안했어요.
3 METHOD
3.1 Overview
장면에 참여 매체가 없다고 가정하면, 출사 복사는 렌더링 방정식으로 형식화될 수 있어요 [26].
(1) 여기서 nₚ, ƒₚ는 각각 음영 지점의 위치, 법선, BSDF를 나타내고, wᵥ는 뷰 방향, Lₑ(p,wᵥ)는 방출 복사, Lᵢ(p,wᵢ)는 입사 방향 wᵢ로부터의 입사 복사입니다.
입사하는 광선이 어디에서 오는지에 따라, 즉 광원이나 다른 비발광 물체에서 오는지에 따라, 식 (1)에서 정의된 전역 조명은 직접 조명 Lₐ(p,wᵥ)과 간접 조명 L*(p,wᵥ)으로 나눌 수 있어요. 면적 광원에서 오는 직접 조명은 Linearly Transformed Cosines (LTCs) [21], [22]를 사용하면 효율적으로 계산할 수 있답니다. 하지만 면적 광원에서 오는 간접 조명을 렌더링하는 것은 훨씬 더 어려운 문제이고, 일반적으로 계산하는 데 시간이 꽤 오래 걸려요.
우리의 주요 관찰은 정적 장면의 간접 조명 L*(p,wᵥ)이 음영 지점, 시점 방향, 그리고 입사 면적 조명에 의해 결정된다는 점이에요. 왜냐하면 간접 조명은 오프라인 렌더링 알고리즘에서 오직 이러한 입력들로부터 합성되기 때문이죠. 이 관찰을 바탕으로, 정적 장면의 간접 조명을 다음과 같이 다시 쓸 수 있어요.
(2) 여기서 g(p)는 위치 p, 법선 nₚ, 재료 매개변수 mₚ를 포함한 음영 지점의 속성을 나타내고, Lₑ(p)는 면적 광원의 표현이며, F는 이러한 입력들로부터 간접 조명으로의 복잡하고 매우 비선형적인 매핑을 나타내요.
우리의 주요 아이디어는 복잡한 매핑 F를 표현하기 위해 딥 뉴럴 네트워크를 활용하는 거예요. 우리 방법의 파이프라인은 전처리 단계와 렌더링 단계로 구성돼요. 전처리 단계에서는 오프라인 렌더링 알고리즘을 사용해 전체 글로벌 조명을 적용한 이미지를 렌더링하여 학습 데이터를 구성해요. 그런 다음 이 학습 데이터로 딥 뉴럴 네트워크를 끝까지 학습시키죠. 학습된 딥 뉴럴 네트워크는 장면의 글로벌 조명을 위한 간결한 표현이에요. 이 뉴럴 표현은 동적인 영역 조명과 시점에서 고주파 글로벌 조명 효과를 예측할 수 있고, 복잡한 데이터 구조나 비싼 저장 비용이 필요하지 않아요. 렌더링 단계에서는 실시간 렌더링 파이프라인을 통해 직접 조명과 다른 버퍼들을 쉽게 렌더링하고, 이 입력들을 학습된 네트워크에 넣어 간접 조명을 생성할 수 있어요. 우리 방법의 개요는 그림 2에 요약되어 있어요.
딥 뉴럴 네트워크가 고차원 함수를 맞추기에 적합하긴 하지만, 저차원 입력으로부터 고주파 글로벌 조명을 간결한 네트워크로 표현하는 데에는 여전히 도전 과제가 남아 있어요. 이 섹션의 나머지 부분에서는 먼저 3.2절에서 뉴럴 네트워크에 적합한 방식으로 입력 정보를 인코딩하는 방법을 소개할게요. 그런 다음 3.3절에서는 인접한 셰이딩 포인트 간에 입력 정보를 공유하고 각 셰이딩 포인트에 장거리 글로벌 정보를 전달하는 화면 공간 뉴럴 버퍼를 제안해요. 그 후 3.4절에서는 각 셰이딩 포인트에 대한 간접 조명을 예측하는 MLP 기반 뉴럴 렌더링 네트워크를 설명할 거예요. 3.5절에서는 학습 과정을 설명하고, 3.6절에서는 렌더링에서 우리 방법을 사용하는 방법을 설명할게요. 구현 세부 사항은 3.7절에 나와 있어요.
3.2 뉴럴 네트워크 친화적인 입력
앞서 언급했듯이, 음영 지점의 간접 조명은 음영 지점, 관찰 지점, 그리고 입사 영역 조명에 의해 결정돼요. 관찰 정보는 각 음영 지점의 관찰 방향 wᵥ로 효율적으로 표현할 수 있답니다.
이론적으로는 위치 p만으로도 정적 장면에서 음영 지점을 표현하기에 충분해요. 하지만 3D 위치만 주어졌을 때는
각 음영 지점에 대해 신경망이
전역 조명과 함께 공간적으로 변하는 법선 벡터나 다른 재료 매개변수 같은 보조 속성들을 암묵적으로 예측해야 해요. 위치와 다른 보조 속성을 결합해서 각 음영 지점의 표현으로 사용하면, 상호작용 성능을 달성하는 데 중요한 컴팩트한 심층 신경망으로 더 효율적인 근사를 할 수 있어요. 우리 구현에서는 위치 p를 법선 벡터 nₚ와 재료 매개변수 mₚ(확산 알베도, 반사 알베도, 거칠기 포함)에 연결해서 각 음영 지점의 입력 벡터 g(p)를 만들어요. 완벽히 반사적인 재료를 가진 음영 지점의 경우, 반사 광선을 쏴서 교차점을 얻고 그 교차점의 입력 벡터를 원래 음영 지점에 할당한답니다.
입사 면적 조명의 표현(p)은 더 복잡해요. 면적 광원의 꼭짓점 위치만으로도 이론적으로는 입사 조명을 설명할 수 있지만, 딥러닝 네트워크는 이렇게 단순한 조명 표현에서 복잡한 매핑을 효율적으로 학습할 수 없어요. 그래서 우리는 입사 조명을 딥러닝 네트워크에 친화적인 방식으로 인코딩하는 방법을 제안해요. 구체적으로, 입사 면적 조명은 화면 공간 조명 정보와 전역 조명 정보를 포함하는 조합 조명 표현으로 인코딩됩니다. 조명 표현의 중복성 덕분에, 네트워크가 다양한 경우에 서로 다른 입력 정보를 활용할 수 있어서, 간결한 딥러닝 네트워크로 효율적인 근사가 가능해요. 예를 들어, 인접한 확산 물체들 사이의 색 번짐 효과는 화면 공간 조명 정보를 통해 더 효율적으로 합성할 수 있고, 화면 밖 물체의 반짝이는 반사는 전역 조명 정보로부터 이익을 얻을 수 있답니다.
3.2.1 조합 조명 표현
우리의 조합 조명 표현에는 화면 공간 조명 정보(직접 조명과 방사 정보)와 전역 조명 방향 지도가 포함돼요.
직접 조명. 직접 조명 Ld는 BRDF와 광원에서 직접 방출되는 입사 방사선의 곱의 적분이에요. 직접 조명은 물질과 입사 조명을 모두 고려한 물리 기반 표현이기 때문에, 각 음영 지점의 입사 조명에 대한 강력한 정보를 딥러닝 네트워크에 제공해요. 면적 조명 하에서 직접 조명을 빠르게 렌더링하기 위해, 먼저 선형 변환 코사인 [21]을 사용해 BRDF를 근사화해요. 그런 다음, BRDF와 다각형 면적 조명의 직접 조명 적분을 실시간으로 분석적으로 계산할 수 있어요. 직접 조명의 부드러운 그림자를 위해서는 Heitz et al. [22]이 제안한 비율 추정기를 사용해 확률적 그림자와 분석적 직접 조명을 결합합니다.
Radiance Cues. 아주 반짝이거나 완벽하게 거울 같은 반사 표면에서는 BRDF가 거의 모든 곳에서 값이 0인 델타 분포이기 때문에 직접 조명이 항상 검게 보이거든요. 이런 경우에는 직접 조명이 입사 조명에 대한 정보를 거의 제공하지 않아서, 신경망이 조명이 변하는 것에 대해 알지 못하게 돼요. 우리는 Deferred Neural Lighting [14]에서 영감을 받아서, 알려지지 않은 기하학과 재료를 가진 장면의 입사 조명을 표현하기 위해 radiance cues를 사용해요. 우리는 radiance cues를 추가적인 입사 조명 표현으로 적응시켰어요.
신경망에 다양한 입사 조명의 영향을 주는 radiance cues Rk =는 K개의 미리 정의된 기초 재료 {bk}k_1로 합성된 직접 조명 이미지 세트예요. Gao et al. [14]과는 달리, 우리는 모든 객체에 균일한 기초 재료를 사용하지 않고, 비확산 재료만 균일한 기초 재료로 대체해요. 왜냐하면 확산 표면의 경우, 직접 조명만으로도 입사 조명을 충분히 표현할 수 있기 때문이죠. 또한, radiance cues의 렌더링에서는 전역 조명이 계산하기 비싸기 때문에 직접 조명만 고려해요.
우리의 구현에서는 서로 다른 주파수를 커버하는 K = 4개의 기초 재료 세트를 사용해요. 더 구체적으로는, 순수한 Lambertian BRDF와 거칠기 매개변수가 각각 0.05, 0.13, 0.34인 세 개의 Cook-Torrance BRDF [7]를 사용해요. 우리는 공통 단계를 공유하여 radiance cues와 직접 조명을 지연 렌더링 파이프라인에서 효율적으로 렌더링할 수 있어요. 예를 들어, 재료를 제외한 G-buffer는 그림자 없는 셰이딩을 렌더링할 때 공유할 수 있고, 비율 추정기를 사용한 부드러운 그림자 렌더링에서도 광선 추적 가시성을 공유할 수 있어요.
Global Lighting Direction Map. 화면 공간의 조명 정보와 함께, 우리는 각 shading point의 조명 방향을 통해 전역 조명 정보를 인코딩하는 방법을 제안해요. 면적 조명 소스의 경우, 조명 위치를 근사하기 위해 면적 조명 소스의 중심 위치를 사용해요. 이 전역 조명 방향 맵은 각 shading point가 장면 내 조명 위치를 인식할 수 있게 해주고, 신경망이 장거리 전역 조명 효과를 학습할 수 있도록 해준답니다. 전역 조명 방향 맵은 순수한 화면 공간 표현의 모호성 문제를 극복하는 데도 도움이 돼요. 어떤 경우에는 두 가지 다른 입사 조명이 비슷한 shading 효과를 가져와 신경망을 혼란스럽게 만들 수 있거든요.
요약하자면, 우리의 조합 조명 표현은 다음과 같이 표현될 수 있어요: =
3.2.2 위치 인코딩
shading point g(p), 시점 방향 wᵥ, 입사 조명 Lₑ(p)의 속성을 직접 렌더링 신경망의 입력으로 사용하면, 신경망이 흐릿한 결과를 생성하고 고주파 전역 조명 세부 사항을 포착하지 못해요. 이는 이전 연구들 [37], [44], [59]에서 제안된 관찰과 일치한답니다.
우리는 Mildenhall et al. [37]과 유사한 위치 인코딩 기법을 사용해요. 사전 정의된 Fourier feature 매핑을 통해 입력을 고차원 공간으로 변환하는 방식이죠. 여기서
매핑 γ(·)는 원래 입력 Iₚ = {g(p), wᵥ, Lₑ(p)}의 각 구성 요소에 독립적으로 적용돼요. 실제로, 모든 입력에 대해 L = 9를 사용해요. Mildenhall 등 [37]과는 달리, 우리는 위치와 시점 방향뿐만 아니라 각 shading point의 속성과 입사 조명에도 positional encoding을 적용해요. 왜냐하면 시점과 조명의 움직임이 고주파수의 외관 변화를 일으키기 때문이죠. 그리고 각 shading point의 속성에서 전역 조명 효과로의 매핑도 고주파수입니다.
sentation mainly for highly glossy surfaces which provide frequency.
모든 입력에 positional encoding을 적용하면 렌더링 네트워크가 고주파수 전역 조명 효과를 포착할 수 있게 해줘요. 우리는 Section 4.3에서 positional encoding을 다른 대체 기술들과 비교할 거예요. 인코딩된 고차원 특징 Γ(Iₚ)는 원래 입력 Iₚ와 결합되어 우리 렌더링 네트워크에 입력됩니다.
3.3 Screen-SpaceNeural Buffer
3.2절에서 언급한 신경망 친화적인 입력은 단일 shading point의 정보만 포함하고 있어서, 일부 경우에 유용한 인근 shading point의 정보를 고려하지 않아요. 예를 들어, 두 개의 인접한 물체 사이의 광택 반사와 두 개의 인접한 확산 평면 사이에서 발생하는 색 번짐 효과는 인근 정보에 크게 의존하거든요. 인근 정보를 고려하지 않고 각 shading point에서 이러한 효과를 독립적으로 예측하는 것은 비효율적이에요.
우리는 convolutional neural network(CNN) C를 사용해서 Iₚ로부터 screen-space neural buffer B를 예측하려고 해요. 이 방법은 화면 공간 내의 다양한 객체 간의 관계, 즉 문맥 정보를 활용하는 데 도움을 줘요. 구현에서는 fully-convolutional U-Net [24] 아키텍처를 사용했어요. 인코더는 각 픽셀 입력을 압축된 잠재 공간 벡터로 변환하고, 디코더는 이 잠재 공간 벡터를 다시 각 픽셀로 전파해요. 출력되는 neural buffer는 입력과 동일한 공간 해상도를 가지며, 각 픽셀에 화면 공간의 전역 정보와 해당 픽셀에 대한 지역적 특징을 포함하는 고차원 neural feature vector Bₚ를 저장해요.
제안된 CNN 모듈의 장점은 다음과 같아요.
screen-space neural buffer는 MLP 렌더링 네트워크의 수용 영역을 확장하고, 화면 공간의 전역 정보를 각 음영 지점에 전달해요.
fully-convolutional 구조는 재학습 없이도 다양한 해상도를 자연스럽게 지원해요.
Summary
렌더링 네트워크에 대한 세부 사항을 소개하기 전에 입력을 I⁺ₚ = {Iₚ, Г(Iₚ), Bₚ}로 요약해요.
1) neural-network-friendly한 입력 Iₚ는 각 음영 지점의 속성, 시야 방향, 그리고 입사 조명을 포함해요.
2) Iₚ에서 위치 인코딩을 통해 변환된 고차원 특징 Г(Iₚ)가 있어요.
3) 화면 공간 내의 전역 정보를 포함하는 학습된 신경 특징 벡터 Bₚ가 있답니다.
3.4 RenderingNetwork
렌더링 네트워크 R은 Iₚ를 입력으로 받아 해당 음영 지점의 간접 조명을 생성해요. Park et al. [42]의 네트워크 구조를 따르고 있답니다. 그림 3b에서 보이는 것처럼, 우리는 실행 성능과 네트워크 용량 사이의 균형을 잘 맞춘 8층 MLP 네트워크를 사용해요. 이 MLP 네트워크는 화면 공간 신경 버퍼를 추출하는 CNN 네트워크(그림 3a)와 함께 학습됩니다. 화면 공간 신경 버퍼는 MLP 렌더링 네트워크에게 전역 조명을 효율적으로 계산하는 방법을 알려주고, 렌더링 네트워크는 CNN 네트워크를 안내해요.
화면 공간에서 유용한 특징을 추출하는 방법에 대해 연구해요.
그림 3. CNN 화면 공간 신경 버퍼 추출 네트워크 C (a)와 MLP 렌더링 네트워크 R (b)의 네트워크 구조입니다. R의 마지막 층 이후에는 활성화 함수가 적용되지 않음을 주의하세요.
우리가 간접 조명을 합성하기 위해 고전적인 CNN 대신 MLP 신경망을 사용하는 이유는 MLP가 각 셰이딩 포인트를 독립적으로 매핑하는 반면, CNN은 주변 픽셀을 고려하기 때문이에요. 그래서 MLP는 각 셰이딩 포인트의 여러 배치 데이터를 효율적으로 활용하여 분리된 매핑을 학습하는 데 더 적합하답니다. 예를 들어, 셰이딩 포인트의 두 배치 데이터가 주어졌을 때, 입력 데이터가 입사 조명을 제외하고 동일하다면, MLP는 입사 조명에 의해 발생하는 외관 차이를 합성하기 위해 공유 속성(예: 시점, 위치, 법선)을 무시할 거예요. 그러나 CNN 네트워크의 경우, 공유 속성이 화면 공간에서 주변 픽셀과 함께 왜곡되어 입력 속성을 분리하기가 더 어려워져요. 일반적인 렌더링 데이터셋에서는 각 속성에 대해 항상 여러 샘플이 있어서 MLP 네트워크가 입력 속성에서 출력으로의 분리된 매핑을 학습하는 데 도움을 줍니다.
3.5 Neural NetworkTraining
앞서 언급했듯이, MLP 렌더링 네트워크 R과 CNN 기반 화면 공간 신경 버퍼 추출 네트워크 C는 각 장면에 대해 함께 훈련됩니다
여기서 L은 훈련 손실 함수이고, Lₚ는 셰이딩 포인트 p의 전역 조명이며, N은 훈련 데이터의 수입니다. 훈련 손실 함수 L은 픽셀 손실 항과 지각 손실 항의 합으로 정의됩니다
표 1 각 장면에 대한 테스트 데이터의 정량적 결과
오류는 각 장면에 대해 새로운 조명과 시점으로 100개의 테스트 이미지에서 계산했어요.
여기서 X는 두 항목의 균형을 맞추기 위한 가중치이고, 구현에서는 X를 1.0으로 설정했어요. 픽셀 손실 Lₚᵢxel은 로그 인코딩된 픽셀 값에 대한 픽셀당 L₁ 거리로 정의돼요
여기서 € = 1.0/e입니다. 지각 손실 Lₚₑᵣceptual은 Zhang et al. [70]을 따라 정의되며, 인간의 지각을 고려하여 두 이미지의 유사성을 측정해요. 지각적 유사성은 사전 학습된 신경망에 의해 추출된 깊은 특징 간의 거리로 측정됩니다. 구현에서는 Zhang et al. [70]이 제안한 대로 VGG 네트워크 [52]의 5개 Conv 레이어를 사용하여 지각 손실을 계산해요. 두 손실을 결합하면 그럴듯하고 시각적으로 정확한 결과를 낼 수 있다는 것을 4.3절에서 논의할 거예요.
3.6 Rendering
신경망을 학습한 후에는, 우리 방법을 통해 동적인 시점과 영역 조명 하에서의 global illumination을 합성할 수 있어요. 먼저, G-Buffer(위치, 시점 방향, 조명 방향, 법선 벡터, 재질 맵 포함), 직접 조명, 그리고 방사선 단서를 실시간 렌더링 파이프라인을 통해 렌더링해요. 그런 다음, positional encoding과 CNN 기반의 global feature 추출을 통해 고차원으로 인코딩된 입력을 얻어요. 이후, 이 모든 입력을 결합하여 MLP 렌더링 네트워크에 넣어 간접 조명을 생성해요. Global illumination은 렌더링된 직접 조명과 예측된 간접 조명의 합이에요.
빛의 전송의 선형성 덕분에 여러 영역 광원을 지원하는 것이 간단해요. 렌더링 중에 각 영역 광원에 의해 조명된 렌더링 이미지는 우리 파이프라인을 통해 합성될 수 있고, 이 모든 렌더링된 이미지의 합이 여러 영역 광원에 의해 조명된 최종 렌더링 이미지가 돼요. 계산 복잡도는 영역 광원의 수에 비례해요. 응용에서는 각 영역 조명의 렌더링을 병렬화할 수 있는데, 계산이 독립적이기 때문이에요. 그림 12q와 12r에서 보듯이, 우리 방법은 여러 영역 광원에 대해 그럴듯한 렌더링 결과를 생성할 수 있답니다.
3.7 ImplementationDetails
3.7.1 Training
그림 4. 우리의 여덟 가지 테스트 장면. (a) 주방, (b) 욕실-2, (c) 코넬 박스, (d) 욕실, (e) 거실-3, (f) 거실, (g) 침실, (h) 계단-2. 우리는 TensorFlow [1]에서 우리 방법을 구현했고, Adam optimizer [30]를 사용하여 우리 프레임워크를 학습시켰어요. 서울과학기술대학교(SNUT)에 한정된 사용 허가가 있습니다. 2026년 1월 14일 06:32:25 UTC에 IEEE Xplore에서 다운로드되었습니다. 제한이 적용됩니다.
학습률은 10⁻⁴로 설정하고, ß₁은 0.9, ß₂는 0.999로 설정했어요. 우리 프레임워크는 배치 크기 1로 1,000k 번의 반복을 통해 학습합니다. 학습은 NVIDIA RTX 2080Ti GPU에서 각 장면당 22시간이 걸려요.
3.7.2 TrainingDataGeneration
각 장면마다 약 5,000개의 이미지를 훈련 데이터로 렌더링해요(장면별 렌더링된 이미지 수 요약은 표 1의 첫 번째 열을 참조하세요). 뷰포인트 생성을 위해, 카메라 위치와 바라보는 대상 위치를 주어진 경계 상자에서 무작위로 샘플링합니다. 면적 조명 생성의 경우, 주어진 범위에서 크기를 무작위로 샘플링하고, 중심 위치를 주어진 경계 상자에서 샘플링해요. 우리는 PBRTv4 [43]의 GPU 기반 경로 추적기를 사용하여 256 X 256 해상도에서 픽셀당 1,024 샘플(spp)로 훈련 데이터셋을 렌더링합니다. 전체 전역 조명을 포착하기 위해, 경로 추적의 최대 반사를 16으로 설정했어요. 렌더링된 이미지는 OptiX Denoiser [5]로 추가로 노이즈 제거됩니다. 훈련 데이터 렌더링은 두 개의 RTX 2080 GPU로 각 장면당 2026시간이 걸려요.
4 RESULTS
4.1 렌더링 결과
다양한 전역 조명 효과에 대한 우리 방법의 효과를 보여주기 위해, 복잡한 전역 조명 효과를 나타내는 8개의 복잡한 장면 [3], [50]으로 검증합니다. 그림 1과 4에 나타난 것처럼요. 각 장면의 복잡성은 표 1의 두 번째 열에 있는 각 장면의 정점 수로 보여줍니다. 우리 논문에서 사용한 장면은 다음과 같아요: Kitchen (여러 물체의 광택 있는 상호 반사 포함),
그림 5. 새로운 시점과 조명에서 우리 방법과 참고 결과를 비교한 질적 비교입니다. 왼쪽: 참고 결과. 가운데: 우리 렌더링 결과. 오른쪽: 우리 결과와 참고 결과 간의 차이점 (x5).
강한 다중 반사 간접 조명과 거울 반사가 있는 Cornell 박스 (강한 색 번짐, 광택 반사 및 카우스틱 포함), 욕실 (큰 거울과 상대적으로 넓은 조명원으로 인해 어려운 스펙큘러 조명 전달), 거실-3 (풍부한 텍스처 디테일, 색 번짐 및 거울 반사 포함), 거실 (광택 있는 상호 반사 및 거울 반사), 침실 (강한 다중 반사 간접 조명과 거울 반사) 및 계단-2 (강한 광택 상호 반사 포함). 훈련 세트에서 가장 가까운 이웃을 통해 훈련 및 테스트 샘플의 분포를 더 잘 이해하려면 온라인으로 제공되는 보충 자료를 참조하세요.
그림 5와 12는 여러 도전적인 상황에서 우리 방법으로 생성된 렌더링 결과를 보여주며, 우리 방법이 시각적으로 그럴듯한 결과를 생성할 수 있음을 입증해요. 그림 15에서는 직접 조명으로 렌더링된 장면과 우리 방법으로 렌더링된 간접 조명을 보여줍니다. 우리 방법은 여러 영역 조명원(그림 12q와 12r 참조)과 다양한 크기의 영역 조명(그림 10 참조)과 같은 다양한 조명 조건에 강해요. 각 장면에 대한 더 많은 시각화를 보려면 온라인으로 제공되는 보충 자료를 참조하세요.
정량적 평가 결과는 표 1에 요약되어 있어요. 모든 정량적 결과에서는 예측 결과와 참조 결과 간의 거리를 측정하기 위해 다섯 가지 오류 지표(MAE, MSE, SSIM, PSNR, LPIPSAlₑₓ)를 사용했어요.
참고로, LPIPSVGG를 학습 시 지각 손실 함수로 사용했지만, 백본 네트워크는 LPIPSAlex와 다르답니다.
훈련된 신경망의 저장 용량은 각 장면당 55.9 MB예요. 우리 방법은 256 X 256 해상도에서 실행 시 22 FPS를 달성할 수 있답니다. 더 구체적으로는, NVIDIA RTX 2080Ti GPU를 사용하여 여덟 개의 테스트 장면 전체에 걸쳐 실행 시간을 평균 냈어요. 실행 시에는 세 가지 주요 단계가 있어요: G-Buffer 생성, 직접 조명 렌더링(직접 조명과 복사선 단서 포함), 그리고 네트워크 추론이에요.
G-Buffer 생성은 평균 0.7 ms가 걸려요.
직접 조명 렌더링은 직접 조명 이미지와 네 가지 복사선 단서 이미지를 포함해요. 그림자 없는 단일 패스의 분석적 직접 조명은 평균 1.4 ms가 걸리고, 전체 분석적 직접 조명 렌더링 시간은 6 ms예요. 게다가, 확률적 그림자 렌더링은 총 10 ms가 걸려요(Heitz et al. [22]가 제안한 대로 spp를 4로 설정했어요).
Network inference는 가장 시간이 많이 드는 단계예요. 그리고 우리 네트워크는 오직 screen-space buffer만 입력으로 받기 때문에, 장면의 복잡성과는 무관하게 inference 시간이 일정하답니다. 평균적으로 network inference는 28.3ms가 걸려요.
Fig. 6. Kitchen 장면에서 이전 연구들과의 질적 비교입니다. 우리 방법(b)은 참조(a)와 비교했을 때, 동적인 시점과 조명에서도 그럴듯한 glossy interreflection을 생성할 수 있어요. RRF(c)는 glossy interreflection을 완전히 포착하지 못하고요. BCN(d)은 여러 개의 glossy 객체가 있는 이런 어려운 장면에서 그럴듯한 결과를 내지 못해요. CNNR(e)은 흐릿한 결과를 내고(예: 나무 테이블), 세 개의 추가 이미지를 전체 global illumination과 함께 입력으로 받아도 간접 조명이 우리 것만큼 정확하지 않아요. RTRT(f)는 샘플이 부족하고 노이즈 제거 때문에 지나치게 흐릿한 결과를 생성해요. LPV는 glossy interreflection 같은 glossy 재료에 대해 그럴듯한 global illumination을 생성하지 못해요.
4.2 Comparisons
우리가 아는 한, 동적인 시점과 영역 조명 하에서 정적 장면의 전체 global illumination을 렌더링하는 기존 연구는 없어요. 그래서 비슷한 문제를 해결하는 이전 연구들을 최대한 선택해 봤어요. 모든 방법을 통해 Kitchen 장면을 비교했어요. 시각적 비교는 Fig. 6에 나와 있어요.
다음의 다섯 가지 선행 연구를 비교 대상으로 선택했어요. 하지만 이들은 점광원을 가정하고, 점광원의 위치를 입사 조명을 나타내는 데 사용해요. 우리는 면광원의 중심을 사용해 광원의 위치를 근사해요. RRF는 복잡한 장면을 처리하기 위해 분할 기반 전략을 제안했어요. 우리 구현에서는 전체 장면을 Kd-Tree를 사용해 약 1,000개의 분할로 나눈 다음, 각 분할에서 작은 RRF 네트워크를 훈련시켜요. 각 작은 RRF 네트워크의 저장 크기는 52 KB (숨겨진 레이어 3개, 각 레이어의 너비: 128, 64, 32)이고, 따라서 최종 RRF 네트워크는 우리와 비슷한 용량을 가지고 있어요. 그림 6c에서 보이는 것처럼, RRF는 그럴듯한 결과를 생성할 수 있지만, 광택 있는 상호 반사를 완전히 포착하지는 못해요. 참고 그림 6a와 비교했을 때 주요 차이점은 여러 번 반사되는 광택 반사로, 이는 광원의 위치만으로는 면광원과 같은 복잡한 광원을 나타내기에 충분하지 않다는 것을 보여줘요. BCN [68]은 최첨단 화면 공간 global illumination 방법으로, 화면 공간 버퍼에서 확산 물체에 대한 단일 반사 간접 조명을 생성해요. 이들의 접근 방식은 재훈련 없이 동적 장면을 지원하지만, 공정한 비교를 위해 우리 정적 Kitchen 장면에서 그들의 모델을 훈련시켰어요. 그림 6d에서 보이는 것처럼, BCN은 흐릿한 결과를 생성하고 광택 있는 간접 조명을 잘 생성하지 못해요. 이는 화면 공간 접근 방식이 여러 번 반사되는 광택 상호 반사가 있는 도전적인 장면에 적합하지 않다는 것을 나타내요. CNNR [15]는 기하학을 분리하는 신경 장면 표현을 제안했어요.
재료와 조명은 간접 조명을 예측하는 데 사용할 수 있어요. 우리는 이 방법을 단순화해서 동적 조명만 고려하고, 기하학과 재료는 고정시켰어요. 동적 조명 시나리오에서는 동일한 조명과 다른 시점에서 전체 글로벌 조명을 사용해 세 개의 추가 이미지를 먼저 렌더링한 후, 이 세 이미지와 G-Buffers를 함께 파이프라인에 넣어 최종 결과를 생성해야 해요. 하지만 이렇게 세 개의 이미지를 준비하는 데 드는 비용이 출력 이미지를 직접 렌더링하는 것보다 더 비싸기 때문에, 동적 조명에는 실용적인 해결책이 아니랍니다. 그림 6e에서 보듯이, CNNR이 예측한 글로벌 조명 결과는 우리의 것만큼 정확하지 않아요. 예를 들어, 첫 번째 예시의 강철 냄비의 광택 반사와 두 번째 예시의 부드러운 그림자가 그렇죠. 게다가, CNNR은 모든 반사 하이라이트와 텍스처 세부 사항을 충실히 포착하지 못해요. 예를 들어, 테이블과 바닥의 나무 텍스처가 그렇답니다. RTRT는 픽셀당 샘플 수가 적은 노이즈가 있는 이미지를 렌더링하고, 후처리 단계를 통해 렌더링된 이미지를 디노이즈해요. 우리의 구현에서는 Falcor 렌더링 프레임워크 [27]를 기반으로 한 빠른 경로 추적기를 사용해 이미지를 렌더링해요. 동시간 비교를 위해 spp를 16으로 설정했어요. Optix Denoiser [5]를 사용해 렌더링된 이미지를 디노이즈하는데, 이는 성능이 뛰어나고 구현이 쉬워서랍니다. 이상적으로는 완전히 공정한 비교를 위해 장면별 디노이저를 훈련시켜야 하지만, Optix Denoiser를 재훈련하는 것이 간단하지 않아서 하지 않았어요. 그림 6f에서 보듯이, RTRT는 전체적인 글로벌 조명 효과를 포착할 수 있지만, 샘플이 부족해 고주파수의 아티팩트 없는 결과를 생성하지 못해요. 게다가, 오류로 인해 특히 동적 시점에서 시간적 깜빡임이 발생해요. LPV는 여러 가상 점 조명(VPL)을 사용해 간접 조명을 근사하고, 간접 조명을 3D 볼륨 텍스처에 저장해요. Light propagation volume (LPV) [28], [29]는 실시간 애플리케이션에서 널리 사용되며, 확산 물체에 대해 실시간으로 그럴듯한 글로벌 조명을 생성할 수 있답니다. 우리는 공개적으로 이용 가능한
서울과학기술대학교(SNUT)에서 허가된 라이선스 사용. 2026년 1월 14일 06:32:25 UTC에 IEEE Xplore에서 다운로드함. 제한 사항이 적용됩니다.
표 2 주방 장면에 대한 이전 연구와의 정량적 비교
100%
오류는 새로운 조명과 시점에서 100개의 테스트 이미지에 대해 계산되었어요. Ours*는 학습 중에 perceptual loss를 사용하지 않는 우리 방법의 변형이에요. 최고의 결과는 굵게 표시되었고, 두 번째로 좋은 결과는 밑줄로 표시되었어요.
Unreal Engine에서 구현하고 주방 장면을 수동으로 가져왔어요. Unreal Engine과 다른 방법들에서는 재질 모델과 조명 모델이 약간 달라서 외관 차이가 발생할 수 있답니다. 그림 6g에서 보이는 것처럼, LPV는 광택 있는 재질에 대해 그럴듯한 전역 조명을 생성하는 데 실패했어요. 공정한 비교를 위해 RRF, BCN, CNNR의 신경망을 우리와 동일한 조건에서 각 장면에 대해 다시 학습시켰어요.
그림 11은 Cornell box 장면에서 RRF [47], BCN [68], 그리고 RTRT의 추가 비교를 보여줘요. RRF와 BCN은 그럴듯한 확산 간접 조명을 생성할 수 있지만, caustics와 고주파수의 광택 반사를 예측하는 데는 실패해요. RTRT는 전체적인 모습을 포착할 수 있지만, 샘플이 부족하고 노이즈 제거가 충분하지 않아서 고품질의 광택 반사와 caustics를 생성하는 데는 실패해요. 우리 방법의 효과를 더 검증하기 위해, 정량적 평가가 표 2에 나와 있어요. 오류는 새로운 시점과 조명으로 렌더링된 100개의 이미지에서 계산되었어요. 우리 방법은 RRF, BCN, 그리고 CNNR과 비교했을 때 모든 오류 지표에서 일관되게 낮은 오류를 보여요. RTRT와 비교했을 때, 우리 방법의 오류는 MAE, MSE, SSIM, PSNR에서 약간 더 크지만, RTRT와 비교했을 때 더 날카롭고 정확한 간접 조명 효과를 포착할 수 있어요 (그림 6과 11에 나와 있듯이) 그리고 지각적 오류는 시각적 비교와 일치해요. 지각적 손실 없이 우리 방법의 MAE/MSE/SSIM/PSNR 오류는 RTRT와 비슷하지만, 지각적 오류는 더 낮아요.
또한, RTRT는 온라인에서 제공되는 보충 비디오에서 볼 수 있듯이 시간적으로 일관된 결과를 생성하는 데 실패하지만, 우리 방법은 시간적 깜빡임 없이 고품질의 비디오를 생성할 수 있어요. Lai et al. [34]가 제안한 시간적 일관성 오류 지표(MABD)를 사용하여 비디오의 안정성을 측정해요. MABD에서 사용된 optical flow는 PWC-Net [56]에 의해 예측돼요. 시간적 정량 비교 결과는 표 3에 나와 있어요. 우리는 다음을 볼 수 있어요: 1. 시점을 변경할 때의 시간적 불안정성이 조명을 변경할 때보다 더 뚜렷해요. 2. RTRT의 시간적 안정성은 모든 방법 중에서 가장 나쁘며, 이는 시각적 결과와 일치해요. 3. 우리 방법은 고품질의 시간적으로 일관된 결과를 생성할 수 있어요.
4.3 Ablation Study
표 3 주방 장면에서의 이전 연구와의 시간적 안정성 비교
렌더링 네트워크의 네트워크 아키텍처의 영향
우리는 깊은 완전 연결 네트워크를 사용해서 표현해요.
오류는 동적인 시야나 조명 변화가 있는 연속적인 비디오 시퀀스에서 계산돼요. 가장 좋은 결과는 굵게 표시되고, 두 번째로 좋은 결과는 밑줄로 표시돼요.
네트워크 아키텍처는 저차원 입력으로부터 복잡한 매핑을 예측할 때, 고전적인 CNN 네트워크보다 더 적합해요. 우리 MLP 렌더링 네트워크(Fig. 7b)는 고전적인 CNN 네트워크 아키텍처(Fig. 7c)보다 전역 조명 효과를 더 정확하게 포착할 수 있답니다. 표 4에 나와 있는 정량적 오류는 정성적 비교와 일치해요.
렌더링 네트워크 크기의 영향
우리는 8개의 레이어 깊이와 256 채널 너비를 가진 완전 연결 네트워크를 사용해서 입력에서 전역 조명으로의 복잡한 매핑을 표현해요. 그림 7d와 7e에서는 렌더링 네트워크 크기의 영향을 탐구해 봤어요. 렌더링 네트워크의 크기를 줄이면(너비나 깊이 중 하나) 품질이 크게 떨어지는 것을 볼 수 있어요. 동시에, 렌더링 네트워크의 크기는 추론 성능에도 영향을 미치는데, 더 큰 네트워크는 평가 시간이 더 오래 걸리거든요. 그래서 렌더링 품질과 추론 성능의 균형을 맞추기 위해 현재 네트워크 크기를 사용하기로 했어요.
스크린 공간 신경 버퍼의 영향
전역 조명은 셰이딩 포인트, 뷰, 입사 조명에 의해 완전히 결정될 수 있어요. 하지만 객체들 간의 관계도 여전히 중요해요. 렌더링 신경망이 전역 조명을 효율적으로 계산할 수 있도록 도와주거든요. 전역 조명은 서로 다른 객체들 사이의 다중 반사 산란에 의해 생성되기 때문이에요. 우리는 스크린 공간 신경 버퍼를 사용해서 스크린 공간에서 각 셰이딩 포인트로 전역 정보를 전달해요. 이렇게 하면 복잡한 매핑을 간단한 MLP 네트워크가 학습할 수 있답니다.
스크린 공간 신경 버퍼의 효과를 더 잘 검증하기 위해, 먼저 스크린 공간 신경 버퍼를 사용한 경우와 사용하지 않은 경우의 결과를 비교했어요. 그림 7f는 이 절제 실험의 결과를 보여줍니다. 스크린 공간 신경 버퍼는 더 정확한 전역 조명을 생성하고 시각적 아티팩트(전역 강도 불일치)를 줄이는 데 도움을 줘요. 표 4의 수치적 오류도 스크린 공간 신경 버퍼가 결과를 크게 개선한다는 것을 보여줍니다.
이전 실험에서는 CNN이 우리 방법에서 중요한 역할을 한다는 것을 보여줬어요. 셰이딩 포인트의 전역 조명은 셰이딩 포인트 자체에 의해 완전히 결정될 수 있기 때문에, 큰 MLP가 우리 방법과 비슷하게 작동할 수 있는지에 대한 자연스러운 의문이 생기죠. 우리는 여러 대안적인 MLP 전용 솔루션과 우리의 솔루션을 비교해 봤어요.
렌더링 신경망. 섹션 3.4에서 언급했듯이, 그림 8에 나타난 MLP: 서울과학기술대학교(SNUT)에서만 사용이 허가된 라이선스입니다. 2026년 1월 14일 06:32:25 UTC에 IEEE Xplore에서 다운로드했습니다. 제한 사항이 적용됩니다.
그림 7. 신경망 기반 글로벌 조명에 대한 ablation 연구입니다. 우리 방법(b)은 기준 이미지(a)와 비교했을 때 그럴듯한 글로벌 조명을 생성할 수 있어요. [72]의 convolutional neural network를 사용한 경우(c)에는 선명한 광택 반사를 생성하지 못하고, 다른 경우에는 아티팩트를 유발해요. 네트워크 크기를 줄이면(d, e) 결과가 덜 정확해져요. 네트워크의 너비를 줄이는 것(d)이 깊이를 줄이는 것(e)보다 품질 손실이 더 크다는 것을 관찰했어요. 이는 고품질 글로벌 조명을 생성하는 데 네트워크 너비가 더 중요하다는 것을 나타내요. 화면 공간 신경 버퍼는 화면 공간 객체 수준 정보를 공유하는 데 중요한 역할을 해요. 화면 공간 신경 버퍼 없이 생성된 결과(f)는 글로벌 조명의 강도가 잘못되고, 어두운 영역(예: 그림자 영역)이나 밝은 영역(예: 광원 반사)에서 아티팩트를 생성해요. 위치 인코딩은 (g-i)에서 보여주듯이 고주파 세부 사항을 생성하는 데 중요해요. 지각 손실 없이 우리 방법을 사용하면 수치 오류는 낮았지만, 지각 손실 없이 우리 방법의 시각적 품질(j)은 특히 간접 조명에서 더 나빠요. 이는 지각 손실이 훈련 과정에서 간접 조명 영역의 오류를 최소화하는 데 집중할 수 있게 한다는 것을 나타내요. 입력 이미지 수를 줄이면(k, I) 간접 조명을 정확하게 포착하지 못하고, 이는 입력 이미지 수가 시각적 품질에 큰 영향을 미친다는 것을 나타내요.
표 4. ablation 연구에 대한 정량적 평가
오류는 훈련 세트에 포함되지 않은 새로운 조명/시점의 100개 테스트 이미지에서 계산됩니다. 최고의 결과는 굵게 표시되고 두 번째로 좋은 결과는 밑줄로 표시됩니다.
1) 화면 공간 없이: 우리 방법에서 CNN을 제거합니다.
2) D12: MLP의 깊이를 증가시킵니다 (깊이 = 12).
3) W512: MLP의 너비를 512로 늘려요.
4) W1024-D16: MLP의 깊이와 너비를 모두 늘려요 (깊이 = 16, 너비 = 1024).
용량을 늘리면 렌더링 결과가 개선될 수 있다는 걸 알 수 있어요(Figs. 8d, 8e, 8f와 (c) 비교). 하지만 MLP만으로는 어두운 영역에서 정확한 global illumination을 생성하지 못해요. 정량적 결과(Table 4)도 우리 방법이 MLP만 사용하는 변형보다 더 정확한 결과를 낼 수 있음을 보여줘요. 게다가 MLP의 크기를 늘리면 실행 시간 성능에 큰 영향을 미쳐요. 구체적으로, 우리 방법의 네트워크 추론은 28.3 ms가 걸리고, 다른 세 가지 변형(D12, W512, W1024-D16)은 각각 30.5, 53.2, 129.1 ms가 걸려요. 따라서, screen-space neural buffer는 렌더링 품질을 개선하고, 컴팩트한 MLP가 복잡한 매핑을 효율적으로 학습할 수 있게 해주는 데 중요해요.
Positional Encoding의 영향
Positional encoding은 MLP가 고주파 함수를 학습할 수 있게 해줘요. global illumination에는 glossy interreflection, mirror reflection, caustics 같은 고주파 효과가 많아요. Figs. 7b와 7g는 positional encoding을 적용했을 때와 안 했을 때의 비교를 보여줘요. 공정한 비교를 위해, 입력 채널 수를 일정하게 유지하면서 positional encoding을 단순 반복으로 대체했어요. 우리 방법이 전반적으로 그럴듯한 결과를 생성할 수 있음을 알 수 있어요.
그림 8. 스크린 공간 신경 버퍼에 대한 추가 실험이에요. 첫 번째 줄에는 다양한 변형의 렌더링 결과가 나와 있어요. 특정 영역의 확대 뷰와 오류 맵은 두 번째 줄에 시각화되어 있답니다. 우리 방법(b)은 참조(a)와 비교했을 때 고품질의 렌더링 결과를 만들어낼 수 있어요. 다른 변형(MLP만 사용)은 전체 동적 범위를 포착하지 못하고, 어두운 영역(예: 영역 조명 뒤의 벽)에서 그럴듯한 결과를 생성하지 못해요.
위치 인코딩 없이도 결과가 좋지만, 위치 인코딩을 통해 저차원 입력을 고차원 공간으로 변환하면 결과가 더 좋아질 수 있어요. 또한, 최신 SIREN [53] (SInusoidal REpresentation Networks)과도 비교해 봤어요. 그림 7h는 SIREN의 결과를, 그림 7i는 SIREN*의 결과를 보여줘요. 두 SIREN 변형의 결과는 우리 작업에서 단순 반복보다도 더 나빠요. 이는 ReLU 활성화 함수와 위치 인코딩의 효과를 나타내죠.
훈련 손실 함수의 영향
우리는 픽셀 단위의 L₁ 거리와 지각적 손실(perceptual loss)을 사용해서 파이프라인을 훈련해요. 지각적 손실은 훈련 과정이 시각적으로 중요한 영역에 집중하도록 도와주고, 잡음이나 과포화된 영역은 피하게 해줘요. 지각적 손실을 추가하면 숫자 오류(MAE, MSE, SSIM, PSNR)가 증가할 수 있지만, 전체적인 시각적 품질과 지각적 오류는 개선된다고 주장해요. 이는 그림 7j와 표 4의 LPIPS Alex에서 확인할 수 있답니다. 지각적 손실의 역할은 렌더링된 이미지와 참조 이미지 간의 L1/L2 거리를 줄이는 것이 아니라, 오류의 분포를 바꾸는 것이에요. 즉, 지각적 손실은 신경망이 덜 중요한 영역에 더 많은 오류를 두고, 중요한 영역의 품질을 개선하도록 유도해요. 지각적 손실은 다른 렌더링 작업에서도 시각적 품질을 향상시키는 데 유용할 수 있답니다.
동적 시점과 조명 조건에 대해 그럴듯한 렌더링 결과를 생성하려면, 시점/조명 조합의 좋은 커버리지가 중요해요. 그림 7k와 71에서는 5,000개의 입력 이미지 중에서 균일하게 샘플링한 1,000개와 2,500개 이미지로 훈련한 결과를 보여줘요. 1,000개와 2,500개 이미지로 훈련된 네트워크는 흐릿한 결과를 생성하고 간접 조명을 충실히 생성하지 못하는 것을 볼 수 있어요. 이는 시점과 조명 공간의 밀집된 샘플이 시각적으로 그럴듯한 결과를 생성하는 데 중요한 역할을 한다는 것을 나타내요. 게다가 이러한 아티팩트는 연속적인 시퀀스에서 시간적 아티팩트를 초래해요. 우리는 모든 장면에 대해 약 5,000 - 6,000개의 입력 이미지를 사용해서 정확성과 렌더링 성능 사이의 균형을 잘 맞추고 있어요. 왜냐하면 고품질의 참조 이미지를 렌더링하는 데 시간이 많이 걸리거든요.
조명 표현의 영향 우리는 입사 면적 조명을 전역 조명 위치와 화면 공간 조명 단서(직접 조명과 복사 단서)로 표현해요. 조명 위치만으로는 면적 광원을 설명하기에 충분하지 않아요. 왜냐하면 크기와 방향이 무시되기 때문이죠. 그림 9d와 표 4는 화면 공간 조명 표현이 그럴듯한 전역 조명 결과를 만들어내는 데 중요하다는 것을 보여줘요. 면적 광원은 꼭짓점으로 설명할 수 있기 때문에, 이 단순한 조명 위치 확장이 충분한지에 대한 자연스러운 의문이 생기죠. 이 단순한 확장에서는 면적 광원을 중심 위치, 각 꼭짓점의 위치, 그리고 법선 방향으로 표현하고, 다른 부분(입력 채널 수, 위치 인코딩 등)은 고정해요. 그림 9c와 표 4는 이러한 단순한 확장이 동적 면적 조명 하에서 고품질의 전역 조명 효과를 만들어내지 못한다는 것을 보여줘요. 화면 공간 조명 표현에 대해, 우리는 직접 조명이 효율적인 조명 표현이라는 것을 보여줘요(그림 9e). 하지만 복사 단서를 직접 조명과 결합하면 가장 정확한 결과를 생성해요(그림 9b). 그림 9f와 9g에서는 총 채널 수를 일정하게 유지하면서 복사 단서의 수가 미치는 영향을 더 탐구해요. 단일 복사 단서(확산만, 그림 9f)와 두 개의 복사 단서(확산 + 1개의 반사 기초, 그림 9g)의 결과는 복사 단서가 없는 결과보다 약간 더 나아요. 우리 방법(4개의 복사 단서 사용)은 결과를 더 개선할 수 있어요. 표 4에 나타난 정량적 결과는 우리의 관찰을 확인해 줍니다. 여러 복사 단서는 실시간 렌더링 파이프라인에서 추가 비용 없이 동일한 패스에서 렌더링될 수 있다는 점을 주목해야 해요.
5 DISCUSSION
5.1 Scenarios of OurMethod
이 섹션에서는 우리 방법의 시나리오와 잠재적인 응용을 다시 명확히 할 거예요. 우리 방법의 시나리오와 잠재적인 응용은 전통적인 사전 계산 기반 방법과 상당히 유사해요. 둘 다 정적인 장면과 동적인 조명을 가정하거든요. 이런 방법들은 여러 응용 분야에서 사용할 수 있답니다. 우리 방법은 전통적인 사전 계산 기반 방법(e.g., PRT, light map)의 발전된 형태로 볼 수 있어요. 학습 데이터 생성과 신경망 학습이 사전 계산 단계로 작용하거든요. 학습된 네트워크의 파라미터는 주어진 장면의 압축된 표현이에요. 신경망의 렌더링은
그림 9. 다양한 조명 표현과 렌더링 품질 비교. 두 번째 줄에서는 오류(x2)가 시각화되어 있어요. 우리 방법의 전체 조명 표현(조명 위치, 직접 조명, 방사선 단서)이 전역 조명 효과를 충실히 재현하는 것을 볼 수 있어요. 조명을 위치로만 표현한 경우(d)는 덜 정확한 결과를 만들어내요(오류 지도를 참조하세요). 단순한 확장(c)은 그럴듯한 광택 간섭을 생성하지 못해요. 이는 화면 공간 조명 표현이 더 효율적이라는 것을 나타내요. 조명 위치와 직접 조명을 결합한 경우(e)는 그럴듯한 결과를 생성할 수 있지만, 특히 광택 간섭 영역에서 여전히 아티팩트가 남아 있어요. 하나(f) 또는 두 개의 방사선 단서(g)를 추가하면 광택 간섭을 더욱 개선할 수 있어요. 결과(b, e-g)는 방사선 단서가 광택 표면에 대한 입사 조명 정보를 제공하는 데 중요한 역할을 한다는 것을 보여줘요.
시간 렌더링 단계. 전통적인 사전 계산 기반 방법과 비교했을 때, 우리 방법은 복잡한 데이터 구조 없이도 지역 조명과 고주파 전역 조명을 지원해요.
5.2 Relationship With Screen-Space Learning Based Approach
우리 방법의 입력은 각 shading point의 속성과 screen-space neural buffer인데요, 기존의 screenspace 접근 방식과는 근본적인 차이가 있어요. Screen-space 학습 기반 접근 방식 [40], [68]은 screen-space buffer를 입력으로 받아서, 동적 장면에 대해 deep neural network를 통해 global illumination을 예측해요. 그들의 neural network는 임의의 장면에 대한 screen-space buffer로부터 global illumination을 예측하는 역할을 하고, neural network에 장면별 정보는 저장되지 않아요. 반면에, 우리 방법은 정적 장면을 가정하고, 특정 장면의 global illumination을 동적 시점과 조명으로 합성해요. 학습 데이터셋 생성과 네트워크 학습은 각각 특정 장면의 radiance field의 샘플링과 피팅 과정으로 볼 수 있어요. 우리 렌더링 네트워크는 장면의 radiance field를 간결하게 표현한 것이랍니다.
실행 시에는 특정 shading point의 입력을 쿼리로 받아서, 동적 시점과 조명에 따른 global illumination을 우리 간결한 neural scene 표현에서 보간해요. 이론적으로는 point clouds나 voxel 기반 볼륨 같은 명시적 global 표현을 추가하면 정적 장면에 대한 지식이 향상될 거예요. 하지만, 복잡한 데이터 구조나 실행 시의 사전 샘플링 과정을 피하고 우리 방법을 가볍게 유지하기 위해, 실시간 렌더링 파이프라인에서 쉽게 생성할 수 있는 screen-space 입력만을 유일한 입력 정보로 사용해요. 입력에서 global illumination으로의 매핑을 학습하기 쉽고 부드럽게 만들기 위해, shading point, 시점, 조명 정보를 포함하는 neural-network-friendly한 입력을 신중하게 설계해서 활용하자고 제안해요.
5.3 Joint Bilateral Upsampling Based High- Resolution Pipeline
앞서 언급했듯이, 우리 방법은 재훈련 없이도 더 높은 해상도(예: 512 X 512)로 확장할 수 있어요. 실제로, 높은 해상도의 G-buffer(예: normal과 position)를 활용한 joint bilateral upsampling을 사용해서, 네트워크가 생성한 저해상도의 간접 조명을 확대하여 대화형 실행 시간을 달성해요 [31], [68]. 최종 렌더링 이미지는 업샘플링된 간접 조명과 고해상도의 직접 조명을 합한 것으로, 실행 시간과 시각적 품질 사이의 균형을 잘 맞추고 있어요. 이는 그림 13에 나와 있답니다.
5.4 Limitations
100%
우리 방법은 다양한 장면에서 동적인 시점과 영역 조명을 사용하여 그럴듯한 전역 조명을 생성할 수 있어요. 하지만 여전히 몇 가지 한계가 있답니다.
첫째, 우리 방법은 임의의 시점과 영역 조명을 지원해요. 하지만 렌더링 네트워크는 훈련 데이터셋이 커버하는 시점/조명 공간에서만 그럴듯한 결과를 생성할 수 있어요. 3.5절에서 언급했듯이, 우리는 시점과 영역 광원을 무작위로 샘플링하여 시점과 조명의 좋은 커버리지를 얻으려 하지만, 여전히 시점과 조명의 조합 중 일부가 누락되어 있어요. 이런 경우에는 우리 방법이 실패할 수 있답니다 (그림 14b). 시점과 영역 광원을 적응적으로 샘플링하는 것(시점과 조명을 더 밀집하게 샘플링하는 것)이 필요해요.
그림 10. Cornell 박스 장면에서 다양한 영역 조명 크기의 영향을 보여주는 결과입니다. 우리 방법은 매우 작은 영역 광원이나 심지어 점 광원에 대해서도 경계가 뚜렷한 그림자를 가진 그럴듯한 결과를 생성할 수 있어요 (a). 더 큰 영역 광원에 대해서는 (b), 부드러운 그림자가 생성될 수 있답니다. 매우 큰 영역 광원에 대해서는 (c), 그림자가 거의 사라지는 것을 볼 수 있어요.
허가된 라이선스 사용은 서울과학기술대학교(SNUT)로 제한됩니다. 2026년 1월 14일 06:32:25 UTC에 IEEE Xplore에서 다운로드되었습니다. 제한 사항이 적용됩니다.
그림 11. 이전 연구와의 추가적인 질적 비교: RRF[47], BCN[68], 그리고 Cornell box 장면에서의 RTRT입니다. 우리 방법(b)은 참조(a)와 비교했을 때, 동적인 시점과 조명에서도 고품질의 caustics와 glossy 반사를 생성할 수 있어요. RRF(c)와 BCN(d)은 그럴듯한 diffuse global illumination을 생성할 수 있지만, 고주파 반사와 caustics를 예측하는 데 실패합니다. RTRT는 과도하게 흐릿한 glossy 반사를 생성하며, 고품질의 caustics를 재현할 수 없습니다.
그림 12. 새로운 시점/조명 조합에서 우리 방법의 렌더링 결과입니다. 이 장면들은 풍부한 global illumination 효과를 보여줍니다: glossy interreflection (a, b, d, e, f, i, j, I, o), mirror reflection (c, d, g, h, i, k, m, n), 그리고 color bleeding (e, f, i, j).
더 큰 fitting error를 가진 영역은 흥미로운 미래 연구 방향이에요. Diolatzis et al. [11]이 제안한 능동적 탐색 전략은 훈련 데이터를 더 효율적으로 샘플링하는 또 다른 흥미로운 방향입니다.
두 번째로, 우리 방법은 diffuse에서 glossy, 심지어 mirror까지 다양한 재료를 지원합니다. Bathroom 장면(Figs. 12g와 12h)에서 보이는 것처럼, 우리 방법은 유리 전구에 대해 그럴듯한 결과를 생성할 수 있어요. 하지만 현재의 재료
그림 13. 두 가지 고해상도 파이프라인과의 렌더링 품질 비교입니다. 우리 방법은 자연스럽게 고해상도 입력을 지원하고, 1024 X 1024 해상도에서 선명한 세부 사항을 생성할 수 있어요(왼쪽). 하지만 고해상도 입력을 직접 네트워크에 넣으면 시간이 더 걸리고, 실시간 성능을 달성할 수 없어요. 대신, 저해상도(256 X 256) 입력을 네트워크에 넣고, 양방향 업샘플링을 통해 고해상도 간접 조명 결과로 확장할 수 있답니다. 이 양방향 파이프라인(오른쪽)은 그럴듯한 고해상도 결과를 생성하고, 실행 시간 성능을 저해상도 결과와 거의 동일하게 유지해요.
불투명 물체의 재질 모델을 기반으로 한 표현과 조명 표현(방사선 단서는 반사만 포함)은 일반적으로 반투명 물체에 효율적이지 않아요. 그림 14d에서 볼 수 있듯이, 변형된 코넬 박스 장면(유광 큐브를 유리 구로 교체)에서는 우리 방법이 모든 굴절 효과를 생성하지 못해요. 우리는 반투명 재료를 처리할 다른 전략을 탐구하고 싶어요.
세 번째로, 우리 방법은 256 X 256 해상도에서 상호작용 가능한 실행 시간 성능을 달성할 수 있어요. 우리는 미래 작업에서 실시간 성능으로 개선할 계획이에요. 가능한 해결책 중 하나는 재질 특성에 따라 셰이딩 포인트를 그룹으로 나누고, 각 그룹에 대해 작은 MLP를 사용하는 거예요(예: 셰이딩 포인트를 확산/반사로 나누기). 큰 MLP 하나를 여러 작은 MLP로 대체하면 학습 가능한 매개변수의 총 수를 줄일 수 있어 저장 비용이 적고 추론이 빨라져요. 고해상도 렌더링의 경우, 양방향 업샘플링 기반 파이프라인에 의존해 상호작용 성능을 달성해요. 이 양방향 업샘플링 기반 파이프라인은 재질 관련 고주파 전역 조명 세부 사항(예: 매우 유광인 물체에 의해 반사된 텍스처 세부 사항)을 놓칠 수 있어요. 우리는 효율적인 전략을 탐구하고 싶어요.
그림 15. 직접 조명(a, c)과 우리 방법으로 렌더링한 간접 조명(b, d)이 적용된 장면의 시각화입니다. 여기서 보시다시피, 이 장면들은 강한 다중 반사 간접 조명을 보여줘요.
그림 14. 우리 방법의 실패 사례입니다. 우리 방법은 학습 데이터셋에 포함되지 않은 일부 뷰/조명 조합(b)에 대해 그럴듯한 결과를 생성하지 못해요. 또한, 굴절 효과를 완전히 재현하지 못합니다(d).
성능에 영향을 주지 않으면서도 이러한 고주파 세부 사항을 보존할 수 있어요.
마지막으로, 우리 방법은 다양한 글로벌 조명 효과(예: 광택 있는 상호 반사, 카우스틱, 색 번짐), 재료 특성(예: 확산, 광택, 거울) 및 기하학적 복잡성(예: 거실-3과 침실의 잔디 같은 카펫, 거실, 계단-2, 거실-3의 식물)을 보여주는 실내 장면에 대해 고품질의 렌더링 결과를 생성할 수 있어요. 하지만, 우리 방법은 중간 크기의 실내 장면에만 제한되며, 대규모의 개방형 장면에는 확장할 수 없어요.
6 CONCLUSIONANDFUTUREWORK
이 글에서는 정적인 장면에서 동적인 시점과 영역 조명을 사용하여 global illumination을 생성하는 새로운 neural global illumination 접근 방식을 소개했어요. 각 shading point의 입력에서 global illumination으로의 복잡한 매핑을, 이러한 복잡한 매핑을 근사하기에 적합한 깊은 fully-connected network로 모델링했답니다. neural-network에 친화적인 입력 표현은 네트워크 크기의 요구를 줄이면서도 적합 품질에 영향을 주지 않는 데 중요한 역할을 해요. positional encoding 기술과 screen-space neural buffer는 네트워크가 고주파 매핑을 효율적으로 학습할 수 있게 해줍니다. 우리 방법은 직접 조명과 screen-space 버퍼를 입력으로 사용하고, 실행 시 복잡한 공간 데이터 구조나 사전 계산이 필요하지 않아요. 우리 방법의 학습된 모델은 다른 기존의 사전 계산 기반 GI 방법에 비해 더 컴팩트해요 (각 장면당 55.9 MB에 불과하답니다).
앞으로의 연구에서는 효율적인 학습 데이터 생성 전략을 탐구하고 싶어요. 또한, 우리 방법의 실행 성능을 더욱 향상시키고
완전히 동적인 장면을 처리할 수 있도록 방법을 확장할 계획입니다.
REFERENCE
[1] M. Abadi et al., "Tensorflow: Large-scale machine learning on het- erogeneous distributed systems," 2016, ar Xiv:1603.04467.
[2] S. Bako et al., "Kernel-predicting convolutional networks for denoising Monte Carlo renderings," ACM Trans. Graph., vol. 36, no. 4, pp. 97:1-97:14, 2017.
[3] B. Bitterli, "Rendering resources," 2016. [Online]. Available: https://benedikt-bitterli.me/resources/
[4] B. Bitterli, C. Wyman, M. Pharr, P. Shirley, A. Lefohn, and W. Jarosz, "Spatiotemporal reservoir resampling for real-time ray tracing with dynamic direct lighting," ACM Trans. Graph., vol. 39, no. 4, 2020, Art. no. 148.
[5] C. R. A. Chaitanya et al., "Interactive reconstruction of monte carlo image sequences using a recurrent denoising autoencoder," ACM Trans. Graph., vol. 36, no. 4, pp. 1-12, 2017.
[6] M.F. Cohen, J. R. Wallace, and P. Hanrahan, Radiosity and Realistic Image Synthesis. Burlington, MA, USA: Morgan Kaufmann, 1993.
[7] R. L. Cook and K. E. Torrance, "A reflectance model for computer graphics," ACM Trans. Graph., vol. 1, no. 1, pp. 7-24, 1982.
[8] C. Crassin, F. Neyret, M. Sainz, S. Green, 그리고 E. Eisemann, "Voxel cone tracing을 이용한 상호작용 간접 조명," Comput. Graph. Forum, vol. 30, no. 7, pp. 1921-1930, 2011.
[9] C. Dachsbacher와 M. Stamminger, "Reflective shadow maps," Proc. Symp. Interactive 3D Graph. Games, 2005, pp. 203-231.
[10] V. Deschaintre, M. Aittala, F. Durand, G. Drettakis, 그리고 A. Bousseau, "렌더링을 고려한 딥 네트워크를 통한 단일 이미지 SVBRDF 캡처," ACM Trans. Graph., vol. 37, no. 4, pp. 1-15, 2018.
[11] S. Diolatzis, J. Philip, 그리고 G. Drettakis, "변화하는 장면의 신경망 기반 전역 조명을 위한 능동 탐색," ACM Trans. Graph., vol. 41, 2022, Art. no. 171.
[12] S. A. Eslami 외, "신경망 장면 표현 및 렌더링," Science, vol. 360, no. 6394, pp. 1204-1210, 2018.
[13] D. Gao, X. Li, Y. Dong, P. Peers, K. Xu, 그리고 X. Tong, "고해상도 SVBRDF 추정을 위한 임의 개수의 이미지로부터의 딥 인버스 렌더링," ACM Trans. Graph., vol. 38, no. 4, pp. 1-15, 2019.
[14] D. Gao, G. Chen, Y. Dong, P. Peers, K. Xu, 그리고 X. Tong, "비구조화된 사진으로부터의 자유 시점 리라이팅을 위한 지연 신경 조명," ACM Trans. Graph., vol. 39, no. 6, pp. 1-15, 2020.
[15] J. Granskog, F. Rousselle, M. Papas, 그리고 J. Novák, "음영 추론을 위한 구성적 신경 장면 표현," ACM Trans. Graph., vol. 39, no. 4, 2020, Art. no. 135.
[16] P. Green, J. Kautz, W. Matusik, 그리고 F. Durand, "비선형 가우시안 함수 근사를 사용한 시점 의존 사전 계산된 광 전송," Proc. Symp. Interactive 3D Graph. Games, 2006, pp. 7-14.
[17] G. Greger, P. Shirley, P. M. Hubbard, 그리고 D. P. Greenberg, "조도 볼륨," IEEE Comput. Graph. Appl., vol. 18, no. 2, pp. 32-43, Mar./Apr. 1998.
[18] T. Hachisuka와 H. W. Jensen, "Stochastic progressive photon mapping," Proc. ACM SIGGRAPH Asia Papers, 2009, pp. 1-8.
[19] T. Hachisuka, S. Ogaki, H. W. Jensen, "Progressive photon mapping," Proc. ACM SIGGRAPH Asia Papers, 2008, pp. 1-8.
[20] J. Hasselgren, J. Munkberg, M. Salvi, A. Patney, A. Lefohn, "Neural temporal adaptive sampling and denoising," Comput. Graph. Forum, vol. 39, no. 2, 2020, pp. 147-155.
[21] E. Heitz, J. Dupuy, S. Hill, D. Neubelt, "Real-time polygonal-light shading with linearly transformed cosines," ACM Trans. Graph., vol. 35, no. 4, pp. 1-8, 2016.
[22] E. Heitz, S. Hill, M. McGuire, "Combining analytic direct illumination and stochastic shadows," Proc. ACM SIGGRAPH Symp. Interactive 3D Graph. Games, 2018, pp. 1-11.
[23] id Software, "Quake," 1999. [Online]. Available: https://github.com/id-Software/Quake-III-Arena
[24] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, "Image-to-image translation with conditional adversarial networks," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2017, pp. 1125-1134.
[25] H. W. Jensen, "Global illumination using photon maps," in Proc. Eurographics Workshop Rendering Techn., 1996, pp. 21-30.
[26] J. T. Kajiya, "The rendering equation," in Proc. 13th Annu. Conf. Comput. Graph. Interactive Techn., 1986, pp. 143-150.
[27] S. Kallweit et al., "The falcor rendering framework," Mar. 2022. [Online]. Available: https://github.com/NVIDIAGameWorks/Falcor
[28] A. Kaplanyan, "Cryengine 3에서의 빛 전파 볼륨," ACM SIGGRAPH 강좌, vol. 7, 2009, Art. no. 2.
[29] A. Kaplanyan과 C. Dachsbacher, "실시간 간접 조명을 위한 계단식 빛 전파 볼륨," ACM SIGGRAPH 심포지엄 인터랙티브 3D 그래픽 게임, 2010, pp. 99-107.
[30] D. P. Kingma and J. Ba, "Adam: A method for stochastic opti- mization," 2014, arXiv:1412.6980.
[31] J. Kopf, M. F. Cohen, D. Lischinski, M. Uyttendaele, "공동 양자화 업샘플링," ACM Trans. Graph., vol. 26, no. 3, pp. 96-es, 2007.
[32] A. W. Kristensen, T. Akenine-Möller, H. W. Jensen, "실시간 조명 설계를 위한 사전 계산된 국부 복사 전달," ACM SIGGRAPH 논문집, 2005, pp. 1208-1215.
[33] E. P. Lafortune, Y. D. Willems, "양방향 경로 추적을 통한 참여 매체 렌더링," 유로그래픽스 워크숍 렌더링 기술, 1996, pp. 91-100.
[34] W.-S. Lai, J.-B. Huang, O. Wang, E. Shechtman, E. Yumer, 그리고 M.-H. Yang, "블라인드 비디오 시간적 일관성 학습," 유럽 컴퓨터 비전 학회 논문집, 2018, pp. 170-185.
[35] X. Li, Y. Dong, P. Peers, 그리고 X. Tong, "자기 증강 합성곱 신경망을 사용한 단일 사진에서의 표면 외관 모델링," ACM 그래픽스 거래, vol. 36, no. 4, pp. 1-11, 2017.
[36] M. McGuire, M. Mara, D. Nowrouzezahrai, 그리고 D. Luebke, "사전 계산된 광장 필드 프로브를 사용한 실시간 전역 조명," 21st ACM SIGGRAPH 상호작용 3D 그래픽 게임 심포지엄 논문집, 2017, pp. 1-11.
[37] B. Mildenhall, P. P. Srinivasan, M. Tancik, J. T. Barron, R. Ramamoorthi, 그리고 R. Ng, "NERF: 뷰 합성을 위한 신경 방사장으로 장면 표현," 유럽 컴퓨터 비전 학회 논문집, 2020, pp. 405-421.
[38] T. Müller, B. McWilliams, F. Rousselle, M. Gross, 그리고 J. Novák, "신경 중요도 샘플링," ACM 그래픽스 거래, vol. 38, no. 5, pp. 1-19, 2019.
[39] T. Müller, F. Rousselle, J. Novák, and A. Keller, "경로 추적을 위한 실시간 신경 방사 캐싱," 2021, Xiv:2106.12372.
[40] O. Nalbach, E. Arabadzhiyska, D. Mehta, H.-P. Seidel, and T. Ritschel, "딥 셰이딩: 화면 공간 셰이딩을 위한 합성곱 신경망," Comput. Graph. Forum, vol. 36, no. 4, pp. 65-78, 2017.
[41] R. Ng, R. Ramamoorthi, and P. Hanrahan, "모든 주파수 재조명을 위한 삼중 곱 웨이블릿 적분," in Proc. ACM SIGGRAPH Papers, 2004, pp. 477-487.
[42] J.J. Park, P. Florence, J. Straub, R. Newcombe, and S. Lovegrove, "DeepSDF: 형태 표현을 위한 연속 부호 거리 함수 학습," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2019, pp. 165-174.
[43] M. Pharr, W. Jakob, and G. Humphreys, 물리 기반 렌더링: 이론에서 구현까지. Burlington, MA, USA: Morgan Kaufmann, 2016.
[44] N. Rahaman 외, "신경망의 스펙트럼 편향에 대하여," 국제 기계 학습 회의 논문집, 2019, pp. 5301-5310.
[45] G. Rainer, A. Bousseau, T. Ritschel, G. Drettakis, "신경망 사전 계산 복사 전송," 컴퓨터 그래픽스 포럼, vol. 41, no. 2, pp. 365-378, 2022.
[46] R. Ramamoorthi, Precomputation-Based Rendering, Boston, MA, USA: Now, 2009.
[47] P. Ren, J. Wang, M. Gong, S. Lin, X. Tong, B. Guo, "복사 회귀 함수를 이용한 전역 조명," ACM 트랜잭션 그래픽스, vol. 32, no. 4, pp. 1-12, 2013.
[48] T. Ritschel, T. Grosch, H.-P. Seidel, "이미지 공간에서의 동적 전역 조명 근사," 상호작용 3D 그래픽스 게임 심포지엄 논문집, 2009, pp. 75-82.
[49] A. Robison, P. Shirley, "이미지 공간 수집," 고성능 그래픽스 회의 논문집, 2009, pp. 91-98.
[50] S. Rodriguez, T. Leimkühler, S. Prakash, C. Wyman, P. Shirley, 그리고 G. Drettakis, "상호작용적 전역 조명을 위한 글로시 프로브 재투영," ACM Trans. Graph., vol. 39, no. 6, 2020년 12월, Art. no. 237.
[51] C. Schied 외, "공간-시간적 분산 유도 필터링: 경로 추적 전역 조명을 위한 실시간 재구성," High Perform. Graph. 학회에서, 2017, pp. 2:1-2:12.
[52] K. Simonyan과 A. Zisserman, "대규모 이미지 인식을 위한 매우 깊은 컨볼루션 신경망," 2014, Xiv:1409.1556.
[53] V. Sitzmann, J. Martel, A. Bergman, D. Lindell, 그리고 G. Wetzstein, "주기적 활성화 함수를 가진 암묵적 신경 표현," Adv. Neural Inf. Process. Syst. 학회에서, 2020, Art. no. 626.
[54] P.-P. Sloan, J. Kautz, 그리고 J. Snyder, "동적, 저주파 조명 환경에서 실시간 렌더링을 위한 사전 계산된 복사 전달," 29th Annu. Conf. Comput. Graph. Interactive Techn. 학회에서, 2002, pp. 527-536.
[55] P.-P. Sloan, J. Hall, J. Hart, 그리고 J. Snyder, "사전 계산된 복사 전송을 위한 클러스터링 주성분," ACM Trans. Graph., vol. 22, no. 3, pp. 382-391, 2003.
[56] D. Sun, X. Yang, M.-Y. Liu, 그리고 J. Kautz, "PWC-Net: 피라미드, 워핑, 그리고 비용 볼륨을 사용한 광학 흐름을 위한 CNNs," Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2018, pp. 8934-8943.
[57] T. Sun 외, "단일 이미지 초상화 재조명," ACM Trans. Graph., vol. 38, no. 4, 2019, Art. no. 79.
[58] X. Sun, K. Zhou, Y. Chen, S. Lin, J. Shi, 그리고 B. Guo, "동적 BRDFs를 사용한 인터랙티브 재조명," ACM Trans. Graph., vol. 26, no. 3, 2007, Art. no. 27.
[59] M. Tancik 외, "Fourier 특징이 네트워크가 저차원 도메인에서 고주파 함수를 학습하게 한다," 2020, rXiv:2006.10739.
[60] A. Tewari 외, "신경 렌더링의 최신 기술," Comput. Graph. Forum, vol. 39, no. 2, pp. 701-727, 2020.
[61] J. Thies, M. Zollhöfer, M. Nießner, "지연 신경 렌더링: 신경 텍스처를 이용한 이미지 합성," ACM Trans. Graph., vol. 38, no. 4, pp. 1-12, 2019.
[62] A. Vaswani 외, "Attention is all you need," in Proc. 31st Int. Conf. Neural Inf. Process. Syst., 2017, pp. 6000-6010.
[63] E. Veach, L.J. Guibas, "몬테카를로 렌더링을 위한 샘플링 기법의 최적 결합," in Proc. 22nd Annu. Conf. Comput. Graph. Interactive Techn., 1995, pp. 419-428.
[64] J. Wang, R. Ramamoorthi, "다각형 영역 조명을 위한 해석적 구면 고조파 계수," ACM Trans. Graph., vol. 37, no. 4, Jul. 2018, Art. no. 54. [Online]. Available: https://doi.org/ 10.1145/3197517.3201291
[65] R. Wang, J. Tran, 그리고 D. Luebke, "광택 있는 물체의 모든 주파수 재조명," ACM Trans. Graph., vol. 25, no. 2, pp. 293-318, 2006.
[66] L. Wu, G. Cai, S. Zhao, 그리고 R. Ramamoorthi, "다수의 다각형 영역 조명을 사용한 실시간 렌더링을 위한 해석적 구면 고조파 기울기," ACM Trans. Graph., vol. 39, no. 4, 2020, Art. no. 134.
[67] C. Wyman 그리고 A. Marrs, "DirectX 레이 트레이싱 소개," Ray Tracing Gems, Berlin, Germany: Springer, 2019, pp. 21-47.
[68] H. Xin, S. Zheng, K. Xu, 그리고 L.-Q. Yan, "상호작용 단일 반사 확산 간접 조명을 위한 경량 양방향 합성곱 신경망," IEEE Trans. Visual. Comput. Graph., vol. 28, no. 4, pp. 1824-1834, Apr. 2022.
[69] B. Xu 외, "조건부 보조 특징을 사용한 적대적 몬테카를로 노이즈 제거," ACM Trans. Graph., vol. 38, no. 6, pp. 224:1-224:12, 2019.
[70] R. Zhang, P. Isola, A. A. Efros, E. Shechtman, 그리고 O. Wang, "Deep features의 비합리적인 효과성: 지각적 척도로서," IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스에서, 2018, pp. 586-595. [71] Q. Zheng과 M. Zwicker, "주요 샘플 공간에서 중요 샘플링을 학습하기," 컴퓨터 그래픽 포럼, vol. 38, no. 2, pp. 169-179, 2019. [72] J.-Y. Zhu, T. Park, P. Isola, 그리고 A. A. Efros, "Cycle-consistent adversarial networks를 사용한 비대칭 이미지 변환," IEEE 국제 컴퓨터 비전 컨퍼런스에서, 2017, pp. 2223-2232.
Duan Gao는 2017년에 난징대학교 컴퓨터 과학 및 기술 학부에서 학사 학위를 받았어요. 현재 칭화대학교 컴퓨터 과학 및 기술 학부에서 박사 학위를 준비 중이에요. 그의 연구 관심사는 물리 기반 렌더링과 신경 렌더링이에요.
Haoyuan Mu는 현재 칭화대학교 컴퓨터 과학 및 기술 학부에서 학부 졸업을 앞두고 있어요. 그의 연구 관심사는 컴퓨터 비전과 실시간 렌더링이에요.
Kun Xu는 2005년과 2009년에 각각 칭화대학교에서 학사 및 박사 학위를 받았어요. 그는 칭화대학교 컴퓨터 과학 및 기술 학부의 부교수로 재직 중이에요. 그의 연구 관심사는 현실적인 렌더링과 이미지/비디오 편집이에요.


























