英伟达开源Lyra 2.0,一张照片生成可走动的3D世界,直接导入机器人仿真器

英伟达开源Lyra 2.0,一张照片生成可走动的3D世界,直接导入机器人仿真器
英伟达开源Lyra 2.0,一张照片生成可走动的3D世界,直接导入机器人仿真器

英伟达发布 Lyra 2.0,一个从单张图片生成可探索 3D 世界的开源框架。用户给一张照片,Lyra 2.0 先生成受镜头轨迹控制的漫游视频,再将视频重建为 3D 高斯溅射(Gaussian Splats)和网格模型,可直接导入游戏引擎和仿真器实时渲染。模型权重和代码以 Apache 2.0 许可证在 Hugging Face 和 GitHub 开源,允许商用。

核心技术突破在于解决长距离漫游的两个退化问题。第一个是「空间遗忘」:当镜头走远后再折返,此前看过的区域已超出模型的时间窗口,模型只能凭空生成,导致场景前后不一致。Lyra 2.0 为每一帧维护 3D 几何信息,折返时检索相关历史帧并建立密集对应关系,让模型「记住」之前看过的东西。第二个是「时间漂移」:自回归生成逐帧累积误差,场景逐渐变形。Lyra 2.0 用自增强训练让模型在训练阶段就接触自身的退化输出,学会纠错而非传播错误。底层基于万影 Wan 2.1-14B 扩散 Transformer,输出分辨率 832×480。

对开发者和研究者而言,最直接的应用场景是机器人仿真。英伟达在演示中将 Lyra 2.0 生成的 3D 场景导入自家物理仿真器 Isaac Sim,机器人可在其中导航和交互。此前训练具身智能(embodied AI)的一大瓶颈是 3D 环境制作成本高、种类有限,Lyra 2.0 提供了一条从照片批量生成训练环境的路径。去年 9 月发布的 Lyra 1.0 仅支持短距离生成,2.0 版将其扩展到长距离持续探索。谷歌此前发布的 Genie 3 具备类似能力但未开源,Lyra 2.0 是目前该方向最完整的开源方案。

image

research.nvidia.com

Lyra 2.0: Explorable Generative 3D Worlds

Lyra 2.0: Explorable Generative 3D Worlds — camera-controlled walkthrough videos lifted to 3D via feed-forward reconstruction. We address spatial forgetting and temporal drifting for long-horizon, 3D-consistent generation.

3 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文