做广告的软件app,seo是什么意思蜘蛛屯,网页设计培训班上海,企业所得税怎么做账标题#xff1a;《3D Scene Generation: A Survey》 来源#xff1a;新加坡南洋理工大学 项目#xff1a;https://github.com/hzxie/Awesome-3D-Scene-Generation 文章目录 摘要一、前言二、准备工作2.1 任务定义2.2 三维场景表示2.3 生成模型 三、方法#xff1a;分层分类… 标题《3D Scene Generation: A Survey》 来源新加坡南洋理工大学 项目https://github.com/hzxie/Awesome-3D-Scene-Generation 文章目录 摘要一、前言二、准备工作2.1 任务定义2.2 三维场景表示2.3 生成模型 三、方法分层分类法3.1 程序生成Procedural Generation3.1.1基于规则的生成3.1.2 基于优化的生成3.1.3 基于大语言模型的生成 3.2 基于神经三维生成3.2.1 场景参数scene parameters3.2.2 场景图Scene Graph3.2.3 语义布局Semantic Layout3.2.4 隐式布局Implicit Layout 3.3 基于图像的生成3.3.1 整体生成Holistic Generation3.3.2 迭代生成Iterative Generation 3.4 基于视频的生成3.4.1 两阶段生成3.4.2 一阶段生成 四、数据集4.1.1 室内数据集4.1.2 自然数据集4.1.3 城市数据集 4.2 评估4.2.1 基于指标的评价4.2.2 基于基准(Benchmark)的评价4.2.3 人类评价 五、应用和任务5.1 三维场景编辑5.2 人与场景交互5.3 具身 AI5.4 机器人技术5.5 自动驾驶 六、挑战和未来方向6.1 挑战6.2 未来方向 摘要 三维场景生成旨在为沉浸式媒体、机器人技术、自动驾驶和具身人工智能等应用合成空间结构化、语义丰富且逼真的环境。早期基于程序规则的方法虽然提供了可扩展性但多样性有限。近年来深度生成模型如GANs、扩散模型和三维表示如NeRF、三维高斯分布的进步使得学习真实世界场景分布成为可能提高了保真度、多样性和视角一致性。最近的进展如扩散模型通过将生成问题重新定义为图像或视频合成问题弥合了三维场景生成与逼真度之间的差距。本综述将最先进方法分为四个范式程序生成、基于神经网络的三维生成、基于图像的生成和基于视频的生成。我们分析了它们的技术基础、权衡因素和代表性结果并回顾了常用的数据集、评估协议和下游应用。最后我们讨论了生成能力、三维表示、数据和注释以及评估方面的主要挑战并概述了有前景的方向包括更高保真度、物理感知和交互式生成以及统一感知-生成模型。本综述整理了近期在三维场景生成方面的进展并突出了AIGC、三维视觉和具身智能交汇处的有前景方向。
一、前言 生成三维场景的目标是创建一个空间结构合理、语义丰富且视觉逼真的三维环境。作为计算机视觉的基石它支持广泛的应用从沉浸式电影制作[1][2]到广阔的虚拟游戏世界[3][4][5]再到建筑可视化[6][7].。它还在增强现实/虚拟现实[8][9][10]机器人模拟[11][12]和自动驾驶[13][14]中发挥着关键作用通过提供高保真环境来训练和测试。 除了这些应用之外三维场景生成对于推进具身人工智能[15][16][17]和世界模型[18][19][20]至关重要因为它们依赖于多样化的高质量场景来进行学习和评估。逼真的场景合成增强了AI代理导航、互动和适应的能力推动了自主系统和虚拟模拟的进步。 如图1所示近年来3D场景生成受到了广泛关注。早期的场景生成方法依赖于基于规则的算法[21]和手动设计的资产[22]在游戏设计[23]、城市规划[24]、[25]以及建筑[26]、[27]中提供了可扩展性和控制力。然而这些方法依赖预定义的规则和确定性算法限制了多样性需要大量的人工干预才能生成逼真或多样的场景[28]。深度生成模型例如GANs [29]、扩散模型[30])的进步使得神经网络能够通过学习现实世界的分布来合成多样且真实的三维结构。结合NeRF [31]和3D高斯分布[32]等3D表示方法的创新基于神经网络的3D生成方法提高了几何保真度、渲染效率和视角一致性使其成为实现照片级真实场景合成和沉浸式虚拟环境的理想选择。从单张图像出发基于图像的场景生成方法利用相机位姿变换和图像outpaint技术迭代合成连续视图[33][34]或全景局部环境[35][36]。基于SVD的视频生成方法将3D场景生成视为视频生成的一种形式并通过时间建模]增强视图一致性[39]。动态3D表示的整合[40][41]进一步促进了沉浸式和动态环境[42][43].的合成。 与生成3D对象和虚拟形象相比三维场景生成挑战
1)尺寸对象和虚拟形象通常存在于固定且有限的空间范围内而场景则需要容纳多个实体跨越更大、更变化的空间尺度。2)结构复杂性场景涉及不同对象之间的复杂空间和语义关系要求模型确保功能的一致性和整体的合理性。3)数据可用性虽然大规模的对象和虚拟形象生成数据集丰富但高质量、标注的3D场景数据集仍然稀缺且收集成本高昂。4)细粒度控制场景生成通常需要用户对物体放置、分区和风格等属性进行控制这些方面难以灵活且可解释地融入模型中。
一些研究专注于特定子领域如扩散模型[55]、文本驱动场景生成[52]或4D生成[56]而另一些则忽视了关键表示方法例如3D高斯分布[51]和图像序列[53][54]以及重要的范式如过程生成和基于视频的生成[51][53][54]。关于世界模型的综述[18][57][58]主要关注驾驶场景中的视频预测但仅提供了部分视角。 范围。本调查主要关注生成三维场景的方法不包括一般的视频生成[38][61]和一般的三维物体生成[62][63][64]方法尽管它们在三维场景生成方面已展现出一定的能力。本调查补充了现有的关于三维生成模型[51][52][53][54][55]的综述因为没有一个提供对三维场景生成及其相关见解的全面概述。
二、准备工作
2.1 任务定义 3D场景生成使用生成模型 G G G将输入 x x x例如随机噪声、文本、图像或其他条件映射到3D场景表示 S S S: 生成的场景S在空间上是连贯的隐式或显式地定义3D几何并且能够实现多视图渲染或3D重建。
2.2 三维场景表示 Voxel Grid.体素网格是一个三维数组 V ∈ R H × W × D V∈R^{H×W×D} V∈RH×W×D每个体素存储诸如占用率或有符号距离值[65]等属性从而实现结构化的体积场景表示。 point cloud。点云是一组无序的N个三维点 P P P{ p i ∣ p i ∈ R 3 p_i | p_i∈R^3 pi∣pi∈R3} i 1 N ^N_{i1} i1N用于近似物体表面。与体素网格不同点云是稀疏的、无结构的、内存高效的通常由深度传感器、激光雷达和运动结构[66]生成。 mesh。多边形网格 M M M { M V , M E , M F M_V ,M_E,M_F MV,ME,MF}通过顶点 M V M_V MV空间中的点、边 M E M_E ME顶点之间的成对连接和面 M F M_F MF平面多边形如三角形或四边形定义了一个三维表面提供了明确的连通性信息。 Neural Fields。带符号距离场SDF[67]和神经辐射场NeRF[31]是通过神经网络参数化的连续隐式函数。SDF将空间位置 x ∈ R 3 x∈R³ x∈R3映射到带符号距离 s ( x ) ∈ R s(x)∈R s(x)∈R定义表面为其零水平集。NeRF将x和视图方向r∈R³映射到体积密度 σ ( x , r ) ∈ R σ(x,r)∈R^ σ(x,r)∈R和颜色 c ( x , r ) ∈ R 3 c(x,r)∈R³ c(x,r)∈R3。SDF使用球面追踪[68]渲染而NeRF使用可微体渲染[69][70]。 3D Gaussians.3D高斯[32]使用N个3D高斯基元 G G G{ ( µ i , Σ i , c i , α i ) (µ_i,Σ_i,c_i,α_i) (µi,Σi,ci,αi)} i 1 N ^N_{ i1} i1N表示3D场景其中 µ i ∈ R 3 µ_i∈R^3 µi∈R3是中心 Σ i ∈ R 3 × 3 Σ_i∈R^{3×3} Σi∈R3×3定义了各向异性形状 c i ∈ R 3 c_i∈R^3 ci∈R3是RGB颜色 α i ∈ [ 0 , 1 ] α_i∈[0,1] αi∈[0,1]是透明度。图像可以通过将3D高斯渲染到2D平面上来实现。 图像序列。图像序列隐式地编码了场景的三维结构包含来自不同视角的N张图像例如 C C C{ I i ∈ R H × W × 3 I_i∈R^{H×W×3} Ii∈RH×W×3} i 1 N ^N_{i1} i1N是图像和视频生成方法中广泛使用的关键三维场景表示通过多视角重建可以推断出三维结构。
2.3 生成模型 生成模型通过学习统计模式例如AR自回归模型、VAE[71]、GANs [29]、扩散模型[30])或应用预定义规则例如过程生成器来合成数据。前者为新输出近似数据分布后者则通过确定性或随机逻辑构建结构化的3D场景而无需学习先验。 自回归模型(AR模型 按顺序生成数据每个元素都依赖于先前生成的元素。常见的AR模型建模方法是将数据的联合概率分布分解为条件概率的乘积 p ( x ) ∏ t 1 T p ( x t ∣ x t ) p(x) \prod ^T_{t1} p(x_t|x_{t}) p(x)∏t1Tp(xt∣xt)。这种分解直接遵循概率链式法则确保每个元素xt都是按顺序生成的并且依赖于所有先前的元素。条件概率 p ( x t ∣ x t ) p(x_t|x_{t}) p(xt∣xt)由深度生成网络[72][73]建模这些网络学习捕捉数据之间的依赖关系。 变分自编码器VAE [71]是一种生成模型它将数据编码到概率潜在空间中再将其解码回来。给定输入x编码器将其映射到一个由均值 µ µ µ和方差 σ 2 σ² σ2参数化的潜在分布 q ( z ∣ x ) q(z|x) q(z∣x)其中 z µ σ ⋅ ϵ zµσ·ϵ zµσ⋅ϵ ϵ ∼ N ( 0 , I ) ϵ∼N(0,I) ϵ∼N(0,I)。解码器则从z重建x。通过重参数化技巧VAE实现了通过随机采样进行反向传播的能力。损失函数结合了重构损失以保留输入特征和KL散度以正则化潜在空间这使得VAE能够生成平滑且有意义的数据变化。然而由于变分自编码器VAEs优化的是似然函数平均对数似然倾向于生成“平均”样本而不是锐利的真实样本它们通常会将概率质量分散到真实数据流形之外假设真实数据流形 M 是一个低维曲面而 VAE 的解码器 p θ ( x ∣ z ) p_θ(x|z) pθ(x∣z)在高维空间定义了一个高斯分布。由于高斯分布有无限支撑集即概率密度 p0的区域覆盖整个空间即使z采样自流形附近解码器仍可能生成流形外的点从而导致生成的样本模糊且缺乏细节[74][75]。 生成对抗网络GANs[29]包含两个网络——生成器G和判别器D——它们在一个最小最大博弈中竞争。生成器G接受随机噪声z并生成假数据G(z)而判别器D则试图区分真实数据x和假数据G(z)。目标是优化生成器使其能够生成逼真的数据使判别器无法将其与真实数据区分开来并训练判别器正确分类真实和假数据这可以通过目标函数表示 其中 p d a t a ( x ) p_{data}(x) pdata(x)是真实数据分布 p z ( z ) p_z(z) pz(z)是随机噪声分布。GAN的主要缺点是训练难度大常遇到模式崩溃和不稳定等问题[76] 扩散模型[30]是一种生成模型通过逐步向数据中添加噪声来操作将其转化为纯噪声然后学习逆向过程通过去噪恢复原始数据。前向过程被建模为马尔可夫链其中每一步xt是通过向前一步xt−1添加高斯噪声获得的定义为 x t 1 − β t x t − 1 β t ϵ t x_t \sqrt{1−β_t}x_{t−1}\sqrt{β_t}ϵ_t xt1−βt xt−1βt ϵt其中 ϵ t ϵ_t ϵt是高斯噪声 β t β_t βt控制噪声调度。逆向过程旨在建模 p ( x t − 1 ∣ x t ) p(x_{t−1}|x_t) p(xt−1∣xt)学习如何逆转已添加的噪声并再生原始数据。尽管这些模型生成高质量的数据且比GAN更稳定但由于迭代去噪过程计算成本高昂且速度较慢[77] 程序生成器Procedural Generators[44]是通过迭代应用参数规则和数学运算来合成3D场景的算法系统。这些生成器将初始状态S0例如几何基元或空场景通过递归或迭代过程转化为结构化的输出 S n S_n Sn该过程由 S t 1 R ( S t , Θ ) S_{t1}R(S_t,Θ) St1R(St,Θ)控制其中R表示一组预定义的规则例如细分、扰动或空间划分Θ表示可调参数例如种子值、扰动幅度或递归深度。规则R定义了确定性或受约束的随机操作当Θ固定时确保可重复性。
三、方法分层分类法
3.1 程序生成Procedural Generation 程序生成方法通过遵循预定义的规则或约束自动创建三维场景。它们在计算机图形学中广泛用于创建多样的环境包括地形、植被、河流、道路、房间、建筑和整个城市。如表1所示程序生成方法提供了高效率和空间一致性但通常需要仔细调整以实现真实感和用户控制。这些方法的范式如图3所示可以进一步分为基于规则、基于优化和基于大语言模型的生成。 3.1.1基于规则的生成 基于规则的程序生成包括一系列通过明确的规则和算法构建3D场景的方法。这些方法直接生成场景几何然后进行渲染以供可视化。常用的技术包括基于分形、基于语法、基于模拟和基于示例的生成 fractal-based, grammar-based,simulation-driven, 和example-based。 分形fractal[121]、[122]、[123]是数学结构表现出尺度上的自相似性。基于分形的方法广泛应用于地形建模和纹理合成因为它们能够高效地生成视觉上复杂的图案同时所需的存储空间极少。诸如中点位移[124]、[125]和分数布朗运动[126]fBM等技术可以生成多尺度细节这些细节类似于自然景观。 基于语法的方法包括一个符号字母表、初始公理和一组重写规则。每个生成的符号编码用于复杂形状生成的几何命令。CityEngine [3]扩展了L-系统[127]用于生成道路网络和建筑几何以创建城市。Muller等人[¨6]在形状语法[128]的基础上建模高度详细的3D建筑。 基于模拟的程序生成通过建模自然和人工过程来创建逼真的3D环境。一些方法模拟侵蚀效果[78][129][130]和水文学[131][132][133]以高保真度生成地形。植被模拟则在资源竞争[79][134][135]和气候变化[136]下建模植物生长。在城市环境中基于生态系统的方案用植被[137]填充城市而其他程序神经网络3D图像视频6则模拟城市增长和资源分配生成随时间有机演化的聚落[138][139]. 基于示例example的程序方法被提出以提高可控性。这些技术利用用户提供的小样本通过扩展其边界[140]、[141]或匹配特征[142]、[143]来生成更大的场景。逆向程序生成试图在生成过程中提供高级控制。这些方法应用优化函数从程序算法[26]、[144]中推断参数或学习场景布局的全局分布[145]。 上述技术通常结合使用以发挥它们的互补优势生成大规模、多样的场景。例如Citygen [146]集成了道路网络和建筑生成器用于城市景观而Infinigen [80]则结合了材质、地形、植物和生物生成器创造出无限自然场景。
3.1.2 基于优化的生成 基于优化的生成方法将场景合成视为一个优化问题旨在最小化编码预定义约束的目标。这些约束通常源自物理规则、功能或设计原则并嵌入cost function中通过随机或基于采样的方法进行优化。或者统计方法从数据中学习空间关系并通过概率采样指导布局过程。一些系统支持用户定义的约束和用户交互以实现可控且语义丰富的生成。 一些方法将物理和空间约束表述为 cost function并应用随机优化方法生成场景。物理层面的约束包括物体相互穿透、稳定性和摩擦[147]。布局层面的约束包括功能关系例如共现、可达性、室内设计指南例如对称性、对齐、共圆性以及人类行为模式也已被考虑[28][148][149]。高级别的约束如场景类型、大小和布局可由用户指定[15][27][150]从而实现更可控且语义丰富的场景合成。利用现有的过程生成管道Infinigen Indoors [81]引入了一个约束规范API允许用户定义自定义约束并实现高度可控的场景生成。 其他方法采用数据驱动模型从标注数据中学习物体排列模式将场景生成转化为概率采样问题。贝叶斯网络常用于[151][152][153]捕捉物体之间的条件依赖关系而基于图的模型[154][155][156]则建模空间层次或关系结构以提高空间推理和物体放置的准确性。
3.1.3 基于大语言模型的生成 大语言模型[157]LLM和视觉语言模型[158]VLM通过文本驱动实现场景合成允许用户通过自然语言描述指定环境为场景设计提供了更大的灵活性和用户控制。 几种方法利用大语言模型生成场景布局例如对象参数[82][159][160][161][162][163][164][165][166]和基于场景图[167][168][169][170][171][172].。根据这些布局可以通过对象检索或形状生成获得3D几何体。具体来说LayoutGPT [82]使用生成提示和结构模板指导大语言模型生成用于检索资产的对象参数。CityCraft [161]利用大语言模型进行土地利用规划并从数据库中检索建筑物资产以构建详细的都市环境。IDesign [167]和Deng等人的[168]使用基于图的对象表示更有效地建模对象间的语义关系。为了支持更加风格化和多样的场景生成GraphDreamer [170]和Cube [172]通过大语言模型生成场景图将节点视为对象并通过3D对象生成模型实现组合式场景生成。scene Language [165]引入了一种基于程序、词汇和嵌入的场景表示方法该方法可以由大语言模型生成并使用传统、神经或混合图形管道进行渲染。 其他方法利用大语言模型作为代理通过调整基于规则系统的参数或修改程序生成软件中的操作来控制程序生成。Liu等人[173]使用大语言模型微调基于规则的景观生成参数利用学习到的先验知识优化程序工作流程。3D-GPT [83]和SceneCraft [174]生成Python脚本以控制现有的程序框架如Infinigen [80]和Blender1允许直接操作程序资产。Holodeck [175]通过与大语言模型多轮对话生成3D环境包括地板和墙壁纹理化、门和窗户生成、对象选择和放置。CityX [24]和SceneX [84]使用多代理系统处理不同阶段的生成通过Blender渲染生成布局、地形、建筑和道路的Python代码。WorldCraft [176]进一步集成了对象生成和动画模块。
3.2 基于神经三维生成 基于神经网络的三维生成利用带label的数据训练生成模型NeRF和3D高斯分布的进步进一步提高了其保真度和真实性。如表1所。这些方法有较高的视角和语义一致性但其可控性和效率仍有限。如图4所示根据控制生成3D场景布局的空间排列这些方法被分为四类场景参数scene parameters、场景图scene graph、语义布局semantic layout和隐式布局implicit layout。 3.2.1 场景参数scene parameters 场景参数提供了一种紧凑的方式来表示对象排列隐式地捕捉了对象之间的关系而无需依赖显式的场景图。这些参数通常包括对象的位置、大小、方向、类别和形状潜在代码。如图4a所示这些方法首先生成场景参数作为中间表示然后用于合成最终的三维场景 DeepSynth [85]、FastSynth [177]、Zhang等人[178]和Sync2Gen [179]采用基于CNN的架构利用自上而下的图像场景表示通过预测对象参数来依次插入对象。后续研究探索了更先进的模型如Transformer和扩散模型。ATISS [86]、SceneFormer [180]、COFS [181]和Nie等人[182]使用Transformer自回归生成对象参数。RoomDesigner [183]通过解耦布局和形状生成确保室内场景中的形状兼容性进一步优化了这一过程。CASAGPT [184]利用立方体作为中间对象表示更好地避免了对象碰撞。DeBaRA [185]采用扩散模型生成对象参数而PhyScene [186]进一步结合物理约束以提高物理合理性和交互性。 为了提高文本驱动场景生成的可控性RelScene [187]利用BERT [188]在潜在空间中对齐文本描述与空间关系。DiffuScene [88]利用潜在扩散模型[189]从文本输入生成对象参数随后进行对象检索。Ctrl-Room [190]和SceneFactor [191]使用LDMs从文本提示生成粗略的对象布局分别通过全景生成和几何扩散模型获得精细外观。Epstein等人[192]、SceneWiz3D [193]和DreamScene [194]采用多阶段方法首先生成初始对象布局然后使用评分蒸馏采样SDS[195]精细化对象几何最后进行全局精炼步骤以提高组合一致性。 人类的动作和互动常常影响环境的组织方式其中运动模式和身体接触决定了物体和场景布局的安排。Pose2Room [196]引入了一种端到端的生成模型能够根据人体动作预测房间内家具的边界框。SUMMON [197]和MIME [87]通过生成与人体场景接触相匹配的网格对象进一步提高了语义一致性和物理可行性。Vuong等人提出的[198]提出了一种多条件扩散模型结合文本提示以增强可控性。为了确保布局在物理上合理且无接触或碰撞INFERACT [199]在优化场景布局生成的同时利用基于物理的环境中的强化学习模拟人体运动。
3.2.2 场景图Scene Graph 场景图提供了一种结构化、符号化的三维场景表示方法其中node代表对象edge捕捉其空间关系。引入场景图使得生成模型能够强制执行空间约束并保持关系的一致性从而有助于创建结构良好的三维环境。根据图4b所示的范式无论是由模型生成还是作为输入提供的场景图都充当布局先验指导解码过程通过对象检索或形状生成来创建三维场景表示。 早期的数据驱动方法[200][201][202][203]使用场景图表示物体之间的空间关系这些场景图作为通过物体检索和放置生成3D场景的蓝图。后续研究增强了图表示并引入了先进的生成模型。PlanIT [89]采用深度图生成模型来合成场景图随后使用基于图像的网络进行物体实例化。GRAINS [90]采用递归VAE学习场景结构作为层次图可以解码成物体边界框。3D-SLN [204]利用场景图作为3D场景布局生成的结构先验确保空间连贯性并进一步结合可微渲染以合成逼真的图像。Meta-Sim [205]和MetaSim2 [206]使用场景图来构建场景生成优化参数以实现视觉真实并使用渲染引擎合成多样化的3D场景。 先前的方法能够从场景图生成场景但依赖于对象检索或直接合成限制了几何多样性。为了解决这一问题Graph-to-3D [91]引入了一种基于图的VAE联合优化布局和形状。SceneHGN [207]将场景表示为从高层次布局到细粒度对象几何的层次图使用层次VAE进行结构化生成。CommonScenes [92]和EchoScene [208]提出了具有双分支设计的场景图扩散模型用于布局和形状捕捉全局场景-对象关系和局部对象间交互。MMGDreamer [209]引入了一种混合模态图以精细控制对象几何。 最近的方法通过整合人类输入来提高可控性。SEK [210]将场景知识编码为条件扩散模型中的场景图用于基于草图的场景生成。InstructScene [93]将文本编码器与基于图的生成模型集成实现基于文本的场景合成。为了将基于场景图的生成推广到更广泛的场景Liu等人[211]将场景图映射到鸟瞰视图BEV嵌入图该图指导扩散模型进行大规模户外场景合成。HiScene [212]利用VLM指导的遮挡推理和基于视频扩散的无模态补全从单个等轴测视图生成具有组合对象身份的可编辑3D场景。
3.2.3 语义布局Semantic Layout 语义布局作为中间表示编码了三维场景的结构和语义组织。它为三维场景生成提供了高层次的指导确保物体和场景元素放置的可控性和连贯性。如图4c所示无论是用户提供的还是自动生成的语义布局都作为生成模型的精确约束引导三维场景生成的同时允许使用可选的纹理提示来控制风格。 二维语义布局由二维语义图组成有时还包括高度图等附加地图从俯视角度展示。CC3D [95]根据二维语义图生成三维特征体该图作为神经渲染的NeRF。BerfScene [213]引入位置编码和低通滤波使三维表示与BEV图保持等变性从而实现可控且可扩展的三维场景生成。Frankenstein [214]将场景组件编码为紧凑的三平面[215]通过扩散过程根据二维语义布局生成。BlockFusion [100]引入了一种潜在的三平面外推机制用于无界场景扩展。将高度图与语义图结合可以直接将二维布局转换为三维体素世界这对于城市和自然场景尤为重要因为建筑物结构和地形高程提供了重要的先验信息。InfiniCity [96]利用InfinityGAN [216]生成无限规模的二维布局这些布局随后用于创建一个无缝的语义体素世界纹理通过神经渲染合成。为了生成自然场景SceneDreamer [97]使用神经哈希网格捕捉各种景观中的通用特征建模出空间和场景各异的超空间。为了应对城市环境中建筑物的多样性CityDreamer [98]和GaussianCity [217]将生成过程分解为不同的背景和建筑组件。CityDreamer4D [218]进一步整合了动态交通系统生成了一个广阔的四维城市。 三维语义布局相比二维提供了更强的能力来表示更复杂的三维布局通过使用体素或三维边界框提高了可控性。GANcraft [94]使用体素作为三维语义布局通过伪真实值和对抗训练优化神经场。UrbanGIRAFFE [219]和DisCoScene [220]将场景分解为物体、天空和背景并采用组合神经场生成场景。通过结合评分蒸馏采样SDS[195]三维语义布局在文本引导的场景生成中提供了更好的控制改善了生成场景与文本描述的一致性。Comp3D [99]、CompoNeRF [221]、Set-the-Scene [222]和Layout-your- 3D [223]使用预定义的可定制布局作为对象代理通过组合神经场生成三维场景。SceneCraft [224]和Layout2Scene [225]通过蒸馏预训练扩散模型生成室内场景。Urban Architect [226]将几何和语义约束与SDS集成利用可扩展哈希网格确保城市场景生成中的视图一致性。
3.2.4 隐式布局Implicit Layout 隐式布局是编码三维场景空间结构的特征图。如图4d所示这些布局表现为不同维度的潜在特征。编码器学习将三维场景布局信息嵌入到潜在特征图中然后由解码器生成以NeRF、三维高斯或体素网格形式的三维场景。 最近在NeRF和3D高斯等表示方法上的进展使得神经网络能够直接从潜在特征图生成并渲染高保真度的RGB图像。一些方法利用这些表示生成外观一致且具有照片级真实感的3D场景。NeRF-VAE [227]使用VAE跨多个场景编码共享信息。GIRAFFE [228]将场景表示为组合生成神经场以分离物体与背景。GSN [101]和Persistent Nature [229]采用基于GAN的架构生成2D潜在网格作为隐式场景布局沿相机光线采样以指导NeRF渲染。GAUDI [102]采用扩散模型联合学习场景特征和相机姿态将其解码为三平面和姿态用于基于NeRF的渲染控制。NeuralField-LDM [103]将NeRF场景分解为包含3D体素、2D BEV和1D全局表示的层次潜在结构。然后在这一三潜在空间上训练层次扩散模型以生成图像。Director3D [105]使用高斯驱动的多视图潜在扩散模型在生成轨迹上生成像素对齐且无界的3D高斯分布随后进行SDS精炼。Prometheus [230]和SplatFlow [231]从多视图图像中学习压缩潜在空间并将此潜在空间解码为像素对齐的3D GS表示。 另一分支的工作更侧重于生成语义结构和场景几何通常使用体素网格作为表示。这些方法虽然无法立即渲染但可以通过外部渲染管道进行纹理处理。Lee等人[232]引入了离散和潜在扩散模型来生成并完成由多个对象组成的三维场景这些对象以语义体素网格的形式表示。由于体素网格带来的计算挑战DiffInDScene [233]、PDD [234]、X 3 [104]和LT3SD [235]使用层次扩散管道高效地生成大规模和细粒度的三维场景。SemCity [236]采用三平面表示法处理三维语义场景通过在扩散过程中操作三平面空间实现生成和编辑。NuiScene [237]将局部场景块编码为向量集并使用扩散模型生成邻近块以生成无界户外场景。DynamicCity [238]通过采用填充展开技术将六面体[239]展开为二维特征图并应用扩散进行去噪从而实现四维场景生成。
3.3 基于图像的生成 基于图像的生成方法试图弥合2D和3D生成之间的差距如表1所示其在逐帧的处理上高效提供了逼真度和多样性但在深度准确性、远距离语义一致性和视图连贯性方面存在困难。这些方法分为两类整体生成和迭代生成如图5所示。整体生成一步生成完整的场景图像而迭代生成则通过外推逐步扩展场景生成一系列图像。 3.3.1 整体生成Holistic Generation 如图5a整体生成通常依赖于全景图像这些图像提供了完整的360°×180°视场确保了空间连续性和明确的几何约束减少了透视视图中出现的场景不一致。 给定一张RGB图像早期方法[240][241][242][243][244][245]使用GAN进行图像outpainting以填充全景图中的mask区域。更近的方法则采用先进的生成模型如CoModGAN [246]和VQGAN [247])以实现更大的多样性和内容控制。ImmerseGAN [106]利用CoModGAN进行用户可控的生成。OmniDreamer [248]和Dream360 [249]使用VQGAN生成多样且高分辨率的全景图。通过利用潜在扩散模型的进展LDM[189]PanoDiffusion [250]通过将深度整合到双模态扩散框架中增强了场景结构感知能力。 Text-to-image模型如CLIP [251]LDM [189])能够实现基于文本的全景生成。Text2Light [35]使用CLIP进行基于文本的生成并利用层次采样器根据输入文本提取并拼接全景patch。一些方法[252][253]利用扩散模型生成高分辨率平面全景图。然而这些方法无法保证图像边界处的连续性这是创建无缝观看体验的关键。为了解决这一问题MVDiffusion [36]、DiffCollage [254]和CubeDiff [255]生成多视角一致的图像并将其对齐成闭环全景图以实现平滑过渡。StitchDiffusion [256]、Diffusion360 [257]、PanoDiff [258]和PanFusion [107]在边界处采用填充和裁剪策略以保持连续性。 最近的方法将单视图全景生成扩展到多视图以实现沉浸式场景探索主要采用两种策略一种是直接使用扩散模型生成多视图全景图像[259 DiffPano]另一种则是应用3D重建技术例如表面重建[190][260][261]NeRF [108]和3D高斯喷溅[109][262][263][264][265])作为后处理。在此背景下LayerPano3D [109]将生成的全景图分解为基于深度的层填充未见内容帮助创建复杂的场景层次结构。 另一研究方向集中在从卫星图像生成几何一致的街景全景图。一些方法[266][267][268]将几何先验整合到基于GAN的框架中以学习跨视图映射。其他方法[269][270][271]则从卫星图像中估计3D结构并合成渲染街景全景图所需的纹理。
3.3.2 迭代生成Iterative Generation 如图5b迭代始于一个初始的二维图像图像可以由用户提供或根据文本提示生成。首先沿着预定义的轨迹逐步外推至大场景。通过逐步扩展和优化内容不断优化三维场景表示增强几何和结构的一致性。 给定单个图像早期方法推理出三维场景表示并渲染新视图。表示包括点云[110][272][273][274]、多平面图像[275][276]、深度图[277]和网格[278]。尽管能够实现快速渲染但这些表示由于其有限的空间范围限制了相机移动。为了实现不受限制的相机移动Infinite Nature [33]、InfiniteNature-Zero [34]、Pathdreamer [279]和SGAM [280]采用“render-refine-repeat”的方式迭代地wrap先前的视图并 outpaint 缺失区域。DiffDreamer [281]通过使用扩散模型对多个过去和未来的帧进行条件化提高了多视图的一致性。GFVS [111]和LOTR [282]不使用显式的三维表示而是直接编码图像和相机姿态利用变换器生成新颖视图。Tseng等人[283]、Photoconsistent-NVS [284]和ODIN [285]通过姿态引导的扩散模型改进了长期视图合成的一致性。CAT3D [286]使用多视图LDM从输入图像生成新颖视图随后进行3D重建以实现交互式渲染。类似地Bolt3D [287]通过多视图扩散生成场景外观和几何结构直接输出3D高斯函数以避免耗时的优化。 基于文本的场景生成利用预训练的 text-to-image 扩散模型[189][288]提高了多样性和可控性。这些方法无需大量领域特定的训练即可迭代地调整相机视角根据文本提示输出图像。PanoGen [289]、AOG-Net [290]、PanoFree [291]、OPaMa [292]和Invisible Stitch [293]等方法在透视视图中迭代地输出图像并无缝拼接成全景场景。其他方法则利用深度估计器[294][295][296]将RGB图像融合成统一的3D场景。SceneScape [297]、Text2Room [113]和iControl3D [298]使用3D网格作为中介代理迭代地将扩散生成的图像融合成连贯的3D场景表示。WonderJourney [115]采用点云表示并利用VLM引导的再生成策略确保视觉保真度。Text2NeRF [114]和3D-SceneDreamer [299]采用基于NeRF的表示方法以减少几何和外观中的误差累积提高在各种场景下的适应性。Scene123 [300]进一步通过使用GAN框架增强照片级真实感其中判别器将视频生成器的输出与场景生成器的输出进行比较。通过引入3D高斯喷溅[32]LucidDreamer [116]、Text2Immersion [301]、WonderWorld [302]、RealmDreamer [303]、BloomScene [304]和WonderTurbo [305]采用了3D高斯作为3D场景的表示方法以实现更高质量和更快的渲染。利用最近在强大大型重建模型方面的进展[306][307][308][309][310]SynCity [311]通过迭代执行图像outpainting、3D对象生成和拼接实现了无需训练即可生成高质量3D场景的能力。 另一研究方向同时进行迭代视图合成和图像动画以单张图像构建动态3D场景。3D Cinemagraphy[112]和Make-It-4D [312]使用分层深度图像LDI来构建特征点云并通过运动估计和3D场景流来动画化场景。3D-MOM [313]首先通过从单张图像生成多视角图像来优化3D高斯模型然后通过跨视角估计一致运动来优化4D高斯模型[40]。
3.4 基于视频的生成 近期视频扩散模型[38][61]在生成高质量视频内容方面取得了显著进展。在此基础上基于视频的3D场景生成方法能够生成图像序列实现沉浸式和动态环境的合成。如表1这些方法通过连续生成提供高度的真实性和多样性得益于帧间的时间连贯性。然而它们在确保视图一致性方面面临挑战。这些方法可以分为两阶段和一阶段两类如图6所示。
3.4.1 两阶段生成 如图6a两个阶段分别针对多视角空间一致性和多帧时间连贯性。为了进一步提高视角一致性这些生成的序列随后用于优化动态3D场景表示例如4D高斯[40]可变形高斯[41])。VividDream [314]首先通过迭代图像outpaint来构建静态3D场景然后渲染覆盖整个场景的多视角视频并应用时间反转[315]来动画化它们从而在各个视角上创建动态视频。PaintScene4D [316]首先根据文本描述使用视频扩散生成视频然后通过在每个时间戳进行迭代变形和修复来精炼视频以保持多视角一致性。同样4Real [117]、DimensionX [42]和Free4D [317]首先生成连贯的参考视频然后使用帧条件视频生成扩展视角角度。
3.4.2 一阶段生成 如图6b单阶段生成将生成过程整合为单一流程隐式地捕捉时空一致性从而从统一模型中的任意视角和时间步长生成单视图或多视图视频。一些方法[318][319][320][321][322][323][324][325]采用视频扩散模型进行迭代视图 extrapolation随后通过3D生成优化构建静态场景。为了生成动态场景GenXD [119]和CAT4D [326]采用不同的多视图-时间策略构建能够生成所有时间点的所有视图的多视图视频模型。StarGen [327]和Streetscapes [328]使用过去帧作为视频生成的指导通过自回归方法增强长距离场景合成。利用全景图像的自然多视图3D先验4K4DGen [43]从静态全景中采样视角图像将其动画化并排列成动态全景。360DVD [329]、Imagine360 [330]、Genex [331]和DynamicScaler [332]将全景约束整合到视频扩散模型中以生成球面一致的全景视频。 在视频游戏和自动驾驶的场景生成中这些方法通过整合各种控制信号作为条件增强了控制性和真实感。在开放世界游戏环境中庞大的数据集包含用户输入和渲染视频使得像DIAMOND [333]、GameNGen [334]、Oasis [335]、GameGenX [120]和WORLDMEM [336]这样的模型能够根据用户互动预测未来的帧创建响应式的虚拟环境作为神经游戏引擎。在自动驾驶领域诸如DriveDreamer [337]、MagicDrive [39]、DriveWM [338]和GAIA-1 [339]等模型利用文本、边界框、鸟瞰图BEV地图和驾驶员动作等输入来控制复杂驾驶场景的视频生成。最近的研究进一步增强了视图一致性[340][341][342][343][344][345][346][347][348][349][350]扩展了控制能力[118][351][352][353][354]通过 occupancy 实现三维级控制[355][356][357][358][359]支持多模态输出[360][361][362]并提高了生成速度[363]和序列长度[364][365][366][367]。
四、数据集 表3总结了3D场景生成的常用数据集按场景类型分为三类室内、自然和城市
4.1.1 室内数据集 真实世界数据集 通过深度、DSLR或全景相机等传感器从物理场景中捕获。早期的数据集提供带有语义标签的RGB-D或全景图像例如NYUv2 [369]、2D-3D-S [372])而近期的数据集如ScanNet [375]和Matterport3D [374]则提供了具有密集网格和实例级注释的3D重建。 • SUN360 [368]包含67,583张高分辨率360°×180°的全景图像采用等距矩形格式手动分类为80种场景类型。 • NYUv2 [369]提供了来自464个室内场景的1,449张密集标注的RGBD图像涵盖像素级语义和实例级别的对象。 • SUN-RGBD [370]提供了10,335张RGB-D图像和重建的点云包含丰富的标注信息如房间类型、二维多边形、三维边界框、相机姿态和房间布局。 • SceneNN [371]提供了来自100个室内场景的502K张RGB-D帧包含重建的网格、纹理模型、相机姿态以及面向对象和轴向对齐的边界框。 • 2D-3D-S [372]包含来自六个室内区域的超过70,000张全景图像包括对齐的深度、表面法线、语义标签、点云、网格、全局XYZ地图和完整的相机元数据。 • Laval Indoor [373]提供2.2K高清室内全景图7768×3884采用HDR灯光涵盖家庭、办公室和工厂等多种场景。 • Matterport3D [374]包含来自90座建筑的194,400张RGB-D视图中的10,800张全景图像包含密集的相机轨迹、对齐的深度图和语义标签。 • ScanNet [375]提供1,513次扫描中的2.5M张RGB-D帧涵盖707个不同空间包含相机姿态、表面重建、密集的3D语义标签和对齐的CAD模型。 • Replica [377]提供18个场景中35个房间的高质量3D重建具有PBR纹理、HDR灯光和语义注释。 • RealEstate10K [376]包含来自10K YouTube视频的1000万帧涵盖室内和室外场景并包含每帧的相机参数。 • 3DSSG [378]提供了来自3RScan [398]的478个室内房间的场景图包含93个对象属性、40种关系类型和534个语义类别。 • HM3D [379]提供了1,000个高分辨率的室内空间3D重建涵盖住宅、商业和公共建筑。 • ScanNet [380]包含使用激光扫描仪、DSLR和iPhone RGB-D捕获的1,000场景涵盖细粒度语义和长尾类别。 • DL3DV-10K [381]包含来自65个室内和半室外地点的10,510条视频序列中的51.2M帧展示多种视觉条件如反射和不同光照。 合成室内数据集 克服了现实世界中的局限性如多样性有限、遮挡和标注成本高昂。通过设计布局和纹理化的3D资产像SUNCG [382]和3D-FRONT [385]这样的数据集提供了大规模、多样化的场景。一些[383]和[384]利用先进的渲染技术生成具有精确2D标签的逼真图像。 • SceneSynth [152]包含130个室内场景如书房、厨房、客厅来自谷歌3D仓库的1,723个独特模型。 • SUNCG [382]提供45,622个手动设计的场景包含404,000个房间和570万个对象实例涵盖84类别中的2,644个网格。 • Structured3D [383]包含196,500张来自3,500座专业设计房屋的图像配有详细的3D注释如线条、平面。 • Hypersim [384]提供77,400张具有PBR材质和照明的逼真渲染图用于生成逼真的视图合成。 • 3D-FRONT [385]提供6,813座专业设计的房屋和18,797个装饰各异的房间填充了来自3D-FUTURE [399]的高质量纹理3D对象。 • SG-FRONT [92]通过场景图注释增强3D-FRONT。 4.1.2 自然数据集 自然场景数据集有限主要是由于在开放的户外环境中大规模收集和标注的困难。 • Laval Outdoor [386]提供了205幅高分辨率HDR全景图涵盖多种自然和城市景观。 • LHQ [387]汇集了来自Unsplash和Flickr的91,693张精心挑选的风景图片专为高质量图像生成任务设计。 • ACID [33]包含210万张由无人机拍摄的海岸地区YouTube视频帧通过结构光技术获取3D摄像机轨迹。 4.1.3 城市数据集 真实世界的数据集 主要集中在驾驶场景上如KITTI [388]、Waymo [391]和nuScenes [392]这得益于过去十年自动驾驶领域受到的广泛关注。另一个重要来源是谷歌的街景视图和航拍图像例如HoliCity [393]和Google Earth[98]。这些数据集提供了丰富的标注包括语义分割和实例分割。 • KITTI [388]在卡尔斯鲁厄捕获包括立体和光流对、39.2公里的视觉里程计数据以及200K的3D物体标注使用了Velodyne激光雷达、GPS/IMU和带有灰度及彩色相机的立体相机系统。 • SemanticKITTI [390]扩展了KITTI为完整的360°激光雷达扫描提供密集的点级语义。 • KITTI-360 [395]扩展了KITTI提供了73.7公里的驾驶数据、150K的图像、1B个3D点以及密集的2D/3D标签使用了两个180°鱼眼侧置摄像头、一个前置立体相机和两个激光雷达。 • Cityscapes [389]提供来自50个城市的街景视频具有5K像素级和20K粗略标注适用于强监督和弱监督。 • Waymo [391]提供1150个20秒场景总计6.4小时的100万帧图像包含1200万个3D框和990万个2D框这些数据是在旧金山、山景城和菲尼克斯收集的使用了5个激光雷达和5个高分辨率针孔相机。 • nuScenes [392]提供来自波士顿和新加坡1000个20秒场景的140万张图像和39万个激光雷达扫描数据使用了6个摄像头、1个激光雷达、5个雷达、GPS和IMU并进行了23类别的3D框跟踪。 • HoliCity [393]将6,300幅高分辨率全景图13312×6656与伦敦市中心的CAD模型进行图像-CAD融合。 • OmniCity [394]提供来自纽约市25,000个地点的100K像素标注的街道、卫星和全景图像。 • GoogleEarth [98]提供来自400条Google Earth轨迹的24K纽约图像包含2D/3D语义和实例掩码以及相机参数。 • OSM数据集[98]来自Open street Map提供全球80城市的鸟瞰视图语义地图、高度场和道路、建筑及土地利用的矢量数据。 现实世界的标注既昂贵又视角受限。像CARLA [13]和CityTopia [218]这样的 合成数据集 由游戏引擎构建提供了多样化的街道和无人机视角并附有丰富的2D/3D标注。 • CARLA [13]是基于虚幻引擎的开源模拟器提供多样的城市环境、传感器模拟摄像头、激光雷达、雷达以及可定制的驾驶场景控制天气、光照、交通和行人行为支持无限渲染RGB图像及其相应的2D/3D注释。 • CarlaSC [397]提供了来自8张地图的24条序列中的43.2K帧语义场景这些场景由虚拟LiDAR传感器在不同交通条件下捕捉。 • Virtual-KITTI-2 [396]使用Unity复制了5条KITTI序列提供在不同条件下的逼真视频包含深度、分割、光流和物体跟踪的密集注释。 • CityTopia [218]在虚幻引擎中提供了来自11个程序化城市的37.5K帧逼真图像并附有精细的2D/3D注释展示多变的光照和空中/街景视角。 4.2 评估
4.2.1 基于指标的评价 Fidelity保真度即图像和视频生成的指标特别是对于可渲染输出如NeRF、3D高斯或图像序列。Frechet Inception Dis- ´ tance (FID) [400], Kernel Inception Distance KID[401]和Inception ScoreIS[402]广泛用于评估渲染图像与真实样本之间的分布相似性。FID和KID计算从预训练的内皮斯网络中提取特征分布之间的统计距离而IS则基于分类置信度测量图像质量和多样性。SwAVFID [403]、FDD [404]和FIDCLIP [405]探索替代特征空间以更好地与人类评价相关。无参考图像质量指标如自然图像质量评估器NIQE[406]、盲/无参考图像空间质量评估器BRISQUE[407]用于直接从图像统计中估计感知质量。CLIP-IQA [408]结合CLIP特征与学习的IQA模型以更好地在文本或语义条件下与人类感知对齐。为了评估三维空间中的照片级真实感F3D [234]是FID的3D版本基于预训练的自动编码器和3D卷积神经网络架构。除了感知评分外一些指标还评估生成样本与真实样本之间的分布对齐情况。最小匹配距离MMD[409]衡量了不同分布中最接近点之间的平均成对距离覆盖率COV[409]测量生成样本覆盖目标分布的程度而最近邻准确性1-NNA[410]通过使用最近邻检索分类样本来估计模式塌陷或过拟合。 Spatial Consistency空间一致性 指标评估生成场景的三维几何和多视角对齐。对于深度误差可以使用最先进的单目深度估计模型获得伪真实深度图而场景的深度图则可以通过可靠的结构从运动SfM管道如COLMAP [66]获得。对于相机姿态误差COLMAP还用于从渲染序列中估计相机轨迹。这些预测值与真实值之间的距离使用距离函数计算例如L2距离、RMSE和尺度不变均方根误差SI-RMSE[411]。 Temporal Coherence时间连贯性 是评估生成的3D场景随时间变化的关键指标尤其适用于动态场景或基于视频的输出。流变形误差FE[412]通过计算两帧之间光流的变形误差来衡量视频的时间稳定性。弗雷歇视频距离FVD[413]基于FID的基本原理引入了一种不同的特征表示方法不仅捕捉每帧的质量还捕捉视频的时间连贯性。专注于生成视频中的复杂运动模式弗雷歇视频运动距离FVMD[414]设计了基于关键点跟踪的显式运动特征通过弗雷歇距离测量这些特征之间的相似性以评估生成视频的运动连贯性。 Controllability可控性 评估了对用户输入做出响应的能力。CLIP Score [415]利用预训练的CLIP模型来衡量生成图像与条件文本之间的匹配度反映了生成内容是否忠实地遵循用户指定的提示。 Diversity多样性 指的是产生多种输出的能力。类别分布KL散度CKL[177]将合成场景中的对象类别分布与训练集进行比较较低的散度表示更好的多样性。场景分类准确性SCA[177]使用训练好的分类器来区分真实场景和生成场景衡量合成场景的分布与真实场景的分布匹配程度。 Plausibility合理性 衡量生成场景是否符合物理和语义约束。碰撞率衡量场景中所有生成对象中发生碰撞的对象比例。超出范围对象区域OBA评估场景中累积的超出范围对象区域。
4.2.2 基于基准(Benchmark)的评价 为了促进对各种3D场景生成方法的公平、可重复和全面评估近期研究越来越多地采用标准化基准测试套件这些套件整合了多种指标、任务配置和质量维度。这一趋势标志着从仅依赖孤立的定量指标转向采用更全面、与任务对齐的评估方法更好地反映现实应用的复杂性。 Q-Align [416]采用大型多模态模型LMMs来预测与人类判断一致的视觉质量评分。它涵盖了三个核心维度图像质量评估IQA、图像美学评估IAA和视频质量评估VQA。在推理过程中收集平均意见得分并重新加权以获得LMM预测的评分。 VideoScore [417]通过在大规模的人工反馈数据集上训练AI评估模型来替代人工评分实现视频质量评估。它提供了五个方面的评估视觉质量VQ、时间一致性TC、动态程度DD、文本到视频对齐TVA和事实一致性FC。 VBench [418]和VBench [419]是全面且多功能的视频生成基准测试套件。它们涵盖了视频生成中的16个维度例如主体身份不一致、运动平滑度、时间闪烁和空间关系等。VBench-2.0 [420]进一步应对了与内在忠实度相关的更复杂挑战包括常识推理、基于物理的真实感、人体运动和创意构图。 WorldScore [421]统一了对3D、4D和视频模型的评估以测试它们根据指令生成世界的能力。它将3D场景生成的评估转化为一系列由摄像机轨迹引导的下一场景生成任务同时测量了可控性、质量和动态性的各种细粒度特征。
4.2.3 人类评价 用户研究仍然是捕捉3D场景生成的主观品质的重要组成部分这些品质很难通过自动指标量化如视觉吸引力、真实性和感知一致性。参与者通常被要求根据多个方面对生成的场景进行排名或评分包括照片真实性、美学、输入一致性例如文本或布局、视图间的3D一致性以及物理或语义上的合理性。理想情况下参与者应包括领域专家如3D艺术家、设计师、研究人员和普通用户。他们的反馈提供了互补的观点专家可能提供更批判性和结构化的见解而非专家则更好地反映了普通用户的印象。 尽管人工评估具有资源密集性和固有的主观性但它们提供了重要的定性见解通过捕捉现实世界中的用户偏好补充了其他评估方法。像Prolific4和Amazon Mechanical TurkAMT这样的平台促进了多样化的参与者招募并使用户研究能够高效地扩展。
五、应用和任务
5.1 三维场景编辑 3D场景编辑涉及改变场景的外观和结构从单个对象修改到完整环境定制。它广泛包括纹理编辑重点是生成风格化或逼真的表面外观以及布局编辑涉及以物理和语义上合理的方式排列对象 Texturing and stylization 旨在根据用户需求创建美观且时尚的外观。尽管最近的技术在扫描网格[422][423][424]或合成室内数据集[425][426][427]上取得了令人印象深刻的效果但这些方法受到重建或大量手动建模导致的几何不完整性的限制。为了克服这些局限近期的方法利用3D场景生成技术来合成完整且语义一致的场景直接支持纹理生成任务。例如Ctrl-Room [190]、ControlRoom3D [261]、RoomTex [428]和DreamSpace [429]等方法采用整体生成技术创建全景房间纹理随后进行详细优化。除了直接生成外3D场景生成还促进了纹理化方法的评估。InstanceTex [430]在现有数据集和由EchoScene [208]生成的新场景中生成纹理提高了基准评估的多样性和鲁棒性。 三维场景布局编辑 专注于在场景中排列对象以生成具有语义意义且物理上合理的配置。几种方法如LEGO-Net [431]、CabiNet [432]和DeBaRA [185]解决了现有场景的重新排列问题。这些方法利用对象级别的属性如类别标签、位置和方向来产生更加有序和规则的布局。一些方法支持更互动和动态的布局编辑。例如SceneExpander [433]和SceneDirector [434]通过直观的用户交互实现实时编辑如修改房间形状或移动对象并自动更新周围对象以保持空间连贯性。最近在组合生成NeRF方面的进展进一步推动了布局控制的边界使得可以编辑隐式表示。DisCoScene [220]、Neural Assets [435]和Lift3D [436]通过调整控制信号如空间位置或潜在特征实现了对象级别的编辑允许灵活且可控的场景操作。
5.2 人与场景交互 人机场景交互HSI专注于建模人类如何与环境互动并影响环境。逼真的角色动画和行为建模需要合成虚拟角色与其环境之间可信的互动。近年来HSI在生成三维环境中真实且物理上合理的动作方面取得了显著进展[437]、[438]、[439]同时在创建符合特定动作序列的场景方面也取得了进展[87]、[197]、[198]。 为了生成基于场景环境的人类运动一些方法[437][440][441][442]直接从包含扫描室内场景和捕捉到的人类运动的数据集中学习[443][444][445].然而这些数据集通常在可扩展性方面有限制并且仅限于静态场景无法建模动态的人物与物体之间的互动。其他一些研究[438][439][446][447][448]则利用强化学习的模拟环境来生成物理上合理的运动。然而由于高昂的设置成本这些模拟往往依赖于简化的场景导致合成训练与现实应用之间存在差距而现实世界中的环境更为复杂多变。 最近的工作GenZI [449]最初通过将生成的人类在二维图像中提升到三维实现了对新场景的零样本泛化。尽管GenZI仍然依赖预先设计的合成场景进行评估但它突显了将场景生成与动作生成相结合以更有效地扩展高光谱影像数据的潜力。整合高质量的三维场景生成对于推进可扩展且逼真的高光谱研究至关重要特别是通过联合考虑人类的能力、动作可行性以及场景语义。
5.3 具身 AI 在具身智能中智能体与环境互动以发展高级语义理解和目标导向行为。3D场景生成通过提供视觉和功能丰富的环境来支持这一点这些环境能够实现导航、探索和指令跟随等任务重点在于认知推理而非精确的物理控制。 模拟环境通常基于重建的真实世界数据[379]、[450]或手动设计的场景[451]、[452]构建但两种方法都有局限性真实世界的数据库存在质量和标注问题而手动创建则劳动密集且难以扩展。在这种背景下3D场景生成为体感AI研究提供了可扩展、多样且物理上合理的替代方案。对于室内环境ProcTHOR [15]使用过程生成技术来制作遵循真实布局和物理约束的场景。Holodeck [175]利用大语言模型自动生成符合用户提供的提示的3D环境。InfiniteWorld [453]进一步扩展资产使用不同的纹理以创造更多样化和时尚的场景。PhyScene [186]将物理和交互约束整合到条件扩散模型中合成出合理互动的环境。Architect [454]采用迭代图像修复技术填充大型家具和小型物品丰富场景复杂度。除了室内环境之外程序化方法还实现了城市规模的模拟。MetaUrban [17]、GRUtopia [16]和URBAN-SIM [455]构建了多样化的大型城市环境供具身代理使用。EmbodiedCity [456]基于真实城市提供高质量的三维现实环境支持各种代理、连续决策和系统基准任务助力具身智能的发展。
5.4 机器人技术 在机器人领域3D场景生成使机器人能够在物理上逼真的环境中学习操作和控制等低级技能。这些场景通常嵌入到模拟器中在模拟器中动力学和接触的精确建模对于训练机器人感知、规划和有效行动至关重要。 模拟环境已成为开发机器人能力的核心工具涵盖各种任务包括复杂的操作和移动。然而最近的机器人学习方法[457][458][459][460][461][462]需要大量的人力来构建这些环境及其相应的演示这限制了即使在模拟世界中机器人的学习可扩展性。RoboGen [463]和RoboVerse [464]通过一个 propose-generate-learn 循环自动化任务、场景和监督的生成过程在此过程中代理提出技能生成具有合理物体布局的环境并以最少的人工输入进行学习。Eurekaverse [465]进一步通过使用大语言模型逐步生成多样且越来越具挑战性的地形形成适应性的跑酷训练课程。 除了明确构建模拟环境外3D场景生成还作为世界模型用于预测未来帧这些帧以视觉方式表示预期的动作使机器人能够在虚拟环境中模拟和预测复杂的操作任务。专注于机器人的视频生成模型[466][467][468][469][470][471][472][473][474][475][476]旨在根据文本或图像等输入合成视频特别是帮助机器人通过预测未来动作序列来可视化和规划复杂的操作任务以物理上合理的方式进行。一些方法[477][478][479]不直接生成视频帧而是利用NeRFs和动态3D高斯分布捕捉现实世界的时空复杂性和语义信息从而实现更精确的运动估计和规划。
5.5 自动驾驶 3D场景生成能够提供可控、可扩展且多样的真实环境模拟。这些功能有助于克服现实数据集和环境的局限性。它支持自动驾驶系统的关键组件如预测建模和数据生成。 几种3D场景生成方法作为自动驾驶的世界模型能够实现未来的场景预测、风险预判以及更安全、更高效行动的规划。一些[39][118][337][338][339][355][364][366]专注于预测未来的视频帧而另一些[480][481][482][483][484]则生成3D占用图以显式建模环境。通过高保真生成DriveArena [351]和DrivingSphere [359]引入了闭环模拟器用于训练和评估自动驾驶代理使代理能够在闭环环境中持续学习和进化。 自动驾驶需要大量多样化的数据集但像nuScenes [392]、KITTI [388]和Waymo [391]这样的真实世界数据集成本高昂且很少能捕捉到关键的边缘情况。可控视频生成方法如[341][343][344][345]和[353]通过合成多样的驾驶场景来解决这一问题这些方法可以灵活控制天气、光照和交通状况特别是针对罕见和安全至关重要的事件。
六、挑战和未来方向
6.1 挑战 生成能力。现有的生成模型在同时满足照片级真实感、三维一致性和可控性方面存在权衡。基于程序和神经网络的3D方法擅长生成几何连贯且空间布局可控的场景但在产生照片级真实的纹理和光照方面往往力不从心。相比之下基于图像和视频的生成模型虽然实现了高度视觉真实感但在保持三维一致性方面却难以应对导致诸如几何扭曲、物体交互不真实或物理动态不合理等问题。因此当前模型仍难以合成既视觉上合理又物理上可信的复杂多对象场景。 三维表示。该发展经历了从以几何为中心的格式如体素网格和点云这些格式难以捕捉照片级的真实外观到NeRFs后者提高了视觉质量但仍然效率低下且缺乏明确的几何结构。最近的进展如3D高斯泼溅提供了更好的效率但仍缺乏几何基础限制了它们在重光照或物理交互等任务中的应用。 Mesh- and Bezier-triangle-based 方法[485-487EdgeRunnerCVPR, 2024BG-TriangleCVPR, 2025TetSphere SplattingICLR, 2025]部分解决了这些局限性通过引入显式的表面表示但它们主要局限于对象级别的生成 。紧凑、物理上有意义且视觉上真实的场景级别表示仍然是一个开放的挑战阻碍了可控和可泛化的三维场景生成的进步。 数据与注释。3D场景生成的进步紧密依赖于数据集的质量。合成数据集提供了精确的注释但由于当前游戏引擎的渲染限制内容多样性有限且照片级真实度欠佳。相比之下现实世界的扫描提供了视觉上逼真的图像但往往缺乏足够的注释。虽然基于图像和视频的生成方法减轻了注释需求但仍难以捕捉准确的3D几何结构常导致空间扭曲。此外现有数据集很少包含丰富的元数据如物理可用性、材质属性或交互提示这阻碍了其在机器人技术、具身人工智能和物理模拟等领域的广泛应用。 评估。三维场景生成中一个持续的挑战是缺乏统一的评估协议。方法通常依赖于不同的指标阻碍了一致性的比较。基于基准的工作[420][421]已经部分解决了这一问题通过引入标准化和人类对齐的评估框架。然而当前的基准主要依赖于文本或图像对布局、动作或轨迹等其他输入的支持有限。此外评估仍然主要集中在图像和视频保真度上未能充分评估底层的三维几何结构和物理合理性。最近的工作如Eval3D [488]引入了一个开始解决三维结构、语义和几何一致性问题的基准尽管它仍局限于对象级别的生成缺乏场景级别的复杂性。
6.2 未来方向 更好的保真度。高保真3D场景生成需要几何、纹理、光照和多视角的一致性。虽然当前方法通常在几何精度和视觉丰富性之间做出权衡但未来的模型应致力于弥合这一差距同时考虑结构和外观。关键目标包括改进材质和光照建模、跨视角保持物体身份的一致性以及捕捉阴影和遮挡等细微线索。实现场景级别的保真度还意味着将局部细节与全局空间和语义连贯性对齐从而创建更真实且有用的3D环境。 物理感知生成。尽管视觉技术取得了显著进步但当前的方法往往忽视了生成场景的物理合理性。为了确保物体放置和动作符合物理规律未来的研究应将物理先验、约束或模拟纳入生成过程。新兴方法如基于物理反馈的可微模拟器[489]为联合优化结构、语义和物理行为提供了有希望的途径。这些能力对于具身人工智能和机器人技术尤为重要因为代理需要依赖物理一致的环境来进行有效的规划和控制。 交互式场景生成。近年来4D场景生成技术的进步使得动态环境的创建成为可能这些环境中包含可移动物体。然而这些场景大多不具备互动性物体不会响应用户输入或环境变化。因此当前的生成模型产生的体验往往是被动而非主动的。未来的一个关键方向是交互式场景生成在这种场景中物体能够有意义地回应物理互动、用户指令或情境变化。要实现这一点模型需要超越几何和运动融入关于物体功能、因果关系和多智能体动态的推理。 统一感知生成。一个有前景的前沿领域在于将感知和生成统一在一个共享模型下。诸如分割、重建和场景合成等任务可以从共同的空间和语义先验中受益。此外生成任务本质上需要理解输入模态。统一架构可以利用双向能力通过感知基础增强生成性能并通过生成建模提高场景理解。这样的模型可以作为具身代理的一般用途骨干支持视觉、语言和三维空间表示之间的联合推理。 #pic_center 80%x80% d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ D ^ \hat{D} D^ I ~ \tilde{I} I~ ϵ \epsilon ϵ ϕ \phi ϕ ∏ \prod ∏