焦点热门:苹果展示新AI系统GAUDI 可将文字提示转变成3D场景

近日，苹果展示了其最新的AI系统GAUDI，是一款基于新一代NeRFs的生成式AI系统，可以生成3D室内场景。

【资料图】

所谓的神经渲染将AI带入计算机图形学，例如，英伟达的AI研究人员正在展示如何从照片创建3D对象，而谷歌则依靠神经辐射场（NeRFs）来实现沉浸式视图或开发NeRFs来渲染人物。

到目前为止，NeRFs主要用作3D模型和3D场景的一种神经存储介质，然后可以从不同的相机视角进行渲染。这就是经常显示的摄像机在房间或物体周围移动的方式，用于VR体验的NeRF 初步实验也在进行中。

但是，如果NeRF从不同角度逼真地渲染图像的能力可以用于生成AI呢？OpenAI的DALL-E 2或谷歌的Imagen和Parti等AI系统展示了可控生成AI的潜力，但仅限于2D图像和图形。

谷歌在2021年末通过Dream Fields首次展示了3D AI生成系统，将NeRF生成3D视图的能力与OpenAI的CLIP评估图像内容能力相结合。结果Dream Fields生成匹配文本描述的NeRF。

现在，苹果AI团队正在推出GAUDI，这是一种用于生成沉浸式3D场景的神经架构，可以根据文字提示创建3D场景。虽然谷歌致力于使用Dream Fields生成单个对象，但将生成AI扩展到完全不受约束的3D场景仍然是一个尚未解决的问题。

造成这种情况的其中一个原因可能是摄像机位置的限制。虽然对于单个对象，每个可能的合理摄像机位置都可以映射到一个圆顶，但在3D场景中，这些摄像机位置受到对象和墙壁等障碍物的限制。如果在场景生成期间不考虑这些，则生成的3D场景不可用。

苹果的GAUDI模型通过三个专门的网络解决了这个问题。其中相机姿态解码器预测可能的相机位置，并确保输出是3D场景架构的有效位置；场景解码器通过一种3D画布的形式对场景进行预测；而辐射场解码器在其上使用体积渲染方程绘制后续图像。

在对四个不同数据集（包括室内扫描数据集ARKitScences）的实验中，研究人员表明GAUDI 可以重建学习视图并匹配现有方法的质量。

苹果还展示了GAUDI可以通过3D室内场景生成新的摄像机运动。生成可以是随机的，可以从图像开始，也可以由带有文本编码器的文本输入控制。

GAUDI生成的视频质量仍然很低，并且充满了伪影。但凭借其AI系统，苹果正在为可以渲染3D对象和场景的生成式AI系统奠定另一个基础。一种可能的应用是为苹果的XR头显生成数字位置。