近日,谷歌宣布了一种端到端的可训练深度神经网络PHORHUM,该方案特点是基于单张2D RGB图像,通过像素对齐、表面着色、场景照明等步骤实现逼真的3D建模。在准确再现可见范围的同时,图像中不可见的地方(非可视区域)也可能再现。
关于PHORHUM,谷歌的论文指出:“我们的模型构建可以通过虚拟试衣、照片的沉浸式可视化,改进通信、用于人机交互或游戏的个人AR和VR等,将成为变革性的、身临其境的3D应用程序。”
据了解,PHORHUM采用像素对齐方法估计了详细的3D几何形状,并且首次估计了未着色的表面颜色和场景照明。观察到仅3D监督不足以进行高保真颜色重建,引入了基于补丁的渲染损失,可以对人类的可见部分进行可靠的颜色重建,并对不可见部分进行详细和合理的颜色估计。
此外,PHORHUM专门解决了先前工作在表示几何、反照率和照明效果方面的方法学和实际限制,在一个端到端模型中,因素可以被有效地解开。在广泛的实验中,证明了其多功能性和稳健性。
其实谷歌虽然总是喜欢拿开发者当小白鼠,但是前沿技术的探索也还是在推进。未来的信息世界将全面3D化、拟真化,二次元和三次元的次元壁正在被打破。