近日,苹果展示了其最新的AI系统GAUDI,是一款基于新一代NeRFs的生成式AI系统,可以生成3D室内场景。
【资料图】
所谓的神经渲染将AI带入计算机图形学,例如,英伟达的AI研究人员正在展示如何从照片创建3D对象,而谷歌则依靠神经辐射场(NeRFs)来实现沉浸式视图或开发NeRFs来渲染人物。
到目前为止,NeRFs主要用作3D模型和3D场景的一种神经存储介质,然后可以从不同的相机视角进行渲染。这就是经常显示的摄像机在房间或物体周围移动的方式,用于VR体验的NeRF 初步实验也在进行中。
但是,如果NeRF从不同角度逼真地渲染图像的能力可以用于生成AI呢?OpenAI的DALL-E 2或谷歌的Imagen和Parti等AI系统展示了可控生成AI的潜力,但仅限于2D图像和图形。
谷歌在2021年末通过Dream Fields首次展示了3D AI生成系统,将NeRF生成3D视图的能力与OpenAI的CLIP评估图像内容能力相结合。结果Dream Fields生成匹配文本描述的NeRF。
现在,苹果AI团队正在推出GAUDI,这是一种用于生成沉浸式3D场景的神经架构,可以根据文字提示创建3D场景。虽然谷歌致力于使用Dream Fields生成单个对象,但将生成AI扩展到完全不受约束的3D场景仍然是一个尚未解决的问题。
造成这种情况的其中一个原因可能是摄像机位置的限制。虽然对于单个对象,每个可能的合理摄像机位置都可以映射到一个圆顶,但在3D场景中,这些摄像机位置受到对象和墙壁等障碍物的限制。如果在场景生成期间不考虑这些,则生成的3D场景不可用。
苹果的GAUDI模型通过三个专门的网络解决了这个问题。其中相机姿态解码器预测可能的相机位置,并确保输出是3D场景架构的有效位置;场景解码器通过一种3D画布的形式对场景进行预测;而辐射场解码器在其上使用体积渲染方程绘制后续图像。
在对四个不同数据集(包括室内扫描数据集ARKitScences)的实验中,研究人员表明GAUDI 可以重建学习视图并匹配现有方法的质量。
苹果还展示了GAUDI可以通过3D室内场景生成新的摄像机运动。生成可以是随机的,可以从图像开始,也可以由带有文本编码器的文本输入控制。
GAUDI生成的视频质量仍然很低,并且充满了伪影。但凭借其AI系统,苹果正在为可以渲染3D对象和场景的生成式AI系统奠定另一个基础。一种可能的应用是为苹果的XR头显生成数字位置。