从草图到现实:Google 推出“Project Genie”原型,开启无限交互世界新纪元

1/29/2026
人工智能的进化正从静态内容生成迈向动态世界模拟。Google DeepMind 与 Google Labs 今日联合推出了基于 Genie 3 技术的 Project Genie 交互式原型。这一原型不仅仅是图像的堆砌,它是一个能够模拟环境动态、预测行动结果并实时生成后续路径的“世界模型”。这标志着生成式媒体与交互式体验的深度融合,为未来的 AGI 研究奠定了坚实基础。 世界模型:通往 AGI 的核心路径 构建通用人工智能(AGI)需要系统能够驾驭现实世界的复杂多样性。此前,Google DeepMind 已在国际象棋和围棋等特定环境代理方面取得了卓越成就,而 Genie 3 则是针对广义世界设计的通用模型。与传统的静态 3D 快照不同,Genie 3 能够根据用户的移动和交互,实时生成前方的道路。这种突破性的连贯性使其能够模拟从机器人技术、动画建模到历史场景探索等任何现实世界的场景。 Project Genie 的三大核心功能:创作、探索与重混 Project Genie 的体验紧密围绕三大核心能力展开。首先是世界草图绘制 (World Sketching):用户可以使用文字提示、生成图像或上传图像来创建不断扩展的生态环境。通过集成“Nano Banana Pro”,用户可以在进入世界前预览效果并进行微调,甚至可以自定义第一人称或第三人称视角,完全掌控视觉体验。 其次是世界探索 (World Exploration):创作的世界不再是静止的画卷,而是一个可导航的环境。随着用户的移动,Project Genie 会根据其采取的行动实时生成后续内容。最后是世界重混 (World Remixing):这一功能极大释放了集体创意。用户可以在现有世界的基础上通过修改提示词进行二次创作,或者从画廊和随机生成器中汲取灵感。完成创作后,用户还可以下载其探索过程的视频进行展示。 负责任的创新与未来展望 作为 Google Labs 内的一个实验性研究原型,Project Genie 的开发始终遵循负责任的 AI 原则。由于 Genie 3 仍处于早期研究阶段,目前存在一些局限性:例如生成的场景可能无法完全符合物理定律,角色控制可能存在延迟,且每次生成的时长限制在 60 秒内。目前,该原型已向美国 18 岁及以上的 Google AI Ultra 订阅者开放。Google 期待通过这一原型深入了解用户在 AI 研究和生成式媒体领域使用世界模型的方式,并致力于在未来将这种无限可能的交互体验带给更多用户。