英伟达开源Lyra 2.0，一张照片生成可走动的3D世界，直接导入机器人仿真器

发布时间：2026-04-18T22:51:06.520803 阅读：14638 分类：tech

英伟达发布 Lyra 2.0，一个从单张图片生成可探索 3D 世界的开源框架。用户给一张照片，Lyra 2.0 先生成受镜头轨迹控制的漫游视频，再将视频重建为 3D 高斯溅射（Gaussian Splats）和网格模型，可直接导入游戏引擎和仿真器实时渲染。模型权重和代码以 Apache 2.0 许可证在 Hugging Face 和 GitHub 开源，允许商用。

核心技术突破在于解决长距离漫游的两个退化问题。第一个是「空间遗忘」：当镜头走远后再折返，此前看过的区域已超出模型的时间窗口，模型只能凭空生成，导致场景前后不一致。Lyra 2.0 为每一帧维护 3D 几何信息，折返时检索相关历史帧并建立密集对应关系，让模型「记住」之前看过的东西。第二个是「时间漂移」：自回归生成逐帧累积误差，场景逐渐变形。Lyra 2.0 用自增强训练让模型在训练阶段就接触自身的退化输出，学会纠错而非传播错误。底层基于万影 Wan 2.1-14B 扩散 Transformer，输出分辨率 832×480。

对开发者和研究者而言，最直接的应用场景是机器人仿真。英伟达在演示中将 Lyra 2.0 生成的 3D 场景导入自家物理仿真器 Isaac Sim，机器人可在其中导航和交互。此前训练具身智能（embodied AI）的一大瓶颈是 3D 环境制作成本高、种类有限，Lyra 2.0 提供了一条从照片批量生成训练环境的路径。去年 9 月发布的 Lyra 1.0 仅支持短距离生成，2.0 版将其扩展到长距离持续探索。谷歌此前发布的 Genie 3 具备类似能力但未开源，Lyra 2.0 是目前该方向最完整的开源方案。

research.nvidia.com

Lyra 2.0: Explorable Generative 3D Worlds

Lyra 2.0: Explorable Generative 3D Worlds — camera-controlled walkthrough videos lifted to 3D via feed-forward reconstruction. We address spatial forgetting and temporal drifting for long-horizon, 3D-consistent generation.

3 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文

Lyra 2.0: Explorable Generative 3D Worlds

延伸阅读