利用AI技术实现三维城市重建 - 微课堂|当前快看

2023-06-27 10:52:07 来源 : 空天信息研究院

近年来，AI领域不断推陈出新，带动三维重建技术与时俱进。三维重建能够表达客观世界的虚拟现实，本质是利用二维投影或影像恢复物体三维信息的数学过程和计算机技术。

(资料图片)

AI大尺度三维场景还原（图片来源：文献[1]）

从远古时期的洞穴壁画，到信息化时代计算机技术的迅速发展，人类文明的进步史也是一部三维重建技术的发展史。这一技术的蓬勃发展使得人类社会在影视、教育、游戏、医疗卫生、电子商务、自动驾驶等诸多领域取得长足进步，让人们可以在虚拟世界看到现实世界的景物与色彩，人类从此有了重现世界的伟大力量。

拉斯科洞窟崖壁画，巧用岩石的凹凸变化得到立体感（图片来自网络）

到了深度学习时代，图像三维重建仍是一个重大的研究命题。

基于二维图像预测三维模型，属于计算机视觉问题，但近几年其与计算机图形学的交叉逐渐增多，界限日益模糊，多领域学者也对三维重建技术展开探索研究。

通过几何建模的方式，可以建立三维场景位置坐标和二维图像像素坐标的映射关系，从而根据像素坐标反推场景位置坐标，实现三维重建。但这种方法需要从大量不同视角拍摄图像，并进行相机标定，因此应用场景十分有限。

相机标定原理（图片来自网络）

深度学习技术可以利用先验知识，使模型获得和人类相似的猜想能力，通过观察有限张二维图片，即可学习深层次特征，进而预测出三维模型，拓展了三维重建的应用场景。

随着神经渲染的问世，三维重建获得了新的发展机遇。近几年最为火热的三维重建技术当属神经辐射场（NeRF），NeRF将神经场和体渲染技术巧妙结合：以三维空间坐标点和相机位姿作为输入，经过多层感知机即可输出当前位姿下各坐标点的颜色和密度；然后利用体渲染技术，沿着每条光线，根据密度对经过的三维坐标点按一定方式进行加权，即可计算出对应的二维图像像素值。从上面的分析不难发现，NeRF利用多层感知机模拟辐射场，无需维护一个大的三维查询表，即可获取空间中每个坐标点的颜色和密度，因此在人物、物体和场景重建等领域体现出巨大的发展潜力。

NeRF的原理（图片来源：文献[2]）

已有研究在NeRF基础上进行了大量延伸，使其能够用于大场景三维重建，特别是三维城市重建。未来可以对这些技术善加利用，将城市场景分解，并分块渲染，使其具备扩展到大场景的能力，进而构建高分辨率的“沉浸式”3D全景地图，使用户查看城市场景摆脱视角的限制，实现真实场景模拟；也可在此基础上，研究向三维场景添加事物的方法，使这一技术真正具备可编辑性，并能够动态更新，实现对未知事物、事件发展的仿真预测。

Block-NeRF重现旧金山的Alamo广场社区（图片来源：文献[3]）

相信随着人们的不断探索、创新，神经渲染技术能够克服训练时长和应用场景等方面的局限性，向更多领域延伸，造福人类。

参考文献

[1] Xiangli Y, Xu L, Pan X, et al. Citynerf: Building nerf at city scale[J]. arXiv preprint arXiv:2112.05504. 2021.

[2] Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM. 2021, 65(1): 99-106.

[3] Tancik M, Casser V, Yan X, et al. Block-nerf: Scalable large scene neural view synthesis[C]. 2022.

语引导语引导语导语引导语引导语

以上内容由苏州研究院二十一室邹磊提供。

关键词：