人工智能又一用途实时生成3D全息图
2024/9/23 来源:不详白癜风的治疗 https://m.39.net/pf/a_4361603.html
利用人工智能,科学家现在甚至可以在智能手机上快速生成照片级具有真实感的彩色3D全息图。根据一项新的研究,这项新技术可以在VR和AR头戴式虚拟现实设备以及其他应用中得到应用。
全息图是一种图像,它本质上类似于一个2D窗口,通过它可以观察到3D场景。每个全息图的像素都会散射掉在它们身上的光波,使这些波以产生深度错觉的方式相互作用。
全息视频显示器产生的3D图像,不会使人们产生视觉疲劳和紧张,不像传统的3D显示,利用2D图像的错觉制造3D效果。然而,尽管像三星这样的公司最近在开发能够显示全息视频的硬件方面取得了长足的进步,但实际生成全息数据以供此类设备显示仍然是一个重大挑战。
每个全息图编码了大量的数据,以便在整个图像中产生深度错觉。因此,产生全息视频通常需要超级计算机的计算能力。
为了把全息影像带给大众,科学家们尝试了许多不同的策略来减少所需的计算量——例如,用简单的查找表代替复杂的物理模拟。然而,这些往往以牺牲图像质量为代价。
现在利用麻省理工学院研究人员开发出的新方法,几乎可以瞬间产生全息图——这种基于深度学习的方法非常有效,它可以在笔记本电脑上一眨眼就产生全息图。他们在本周的《自然》杂志上详细介绍了他们的研究结果,部分研究由索尼公司资助。
该研究的主要作者、麻省理工学院电子工程与计算机科学系博士生LiangShi说:“人们以前认为,在现有的消费级硬件条件下,不可能进行实时3D全息计算。人们常说,商用全息显示器将在10年内问世,然而这种说法已经存在了几十年。”
Shi认为,这个团队称之为“张量全息”的新方法最终会让这个难以捉摸的10年目标触手可及。这一进展将推动全息技术在虚拟现实和3D打印等领域的应用。
Shi与他的导师、合著者WojciechMatusik共同参与了这项研究,该研究成果发表在今天的《自然》杂志上。其他合著者包括麻省理工学院电子工程与计算机科学系的BeichenLi和麻省理工学院计算机科学和人工智能实验室、前MIT研究员ChangilKim(现在在Facebook)和PetrKellnhofer(现在在斯坦福大学)。
一张典型的基于镜头的照片对每个光波的亮度进行编码——一张照片可以忠实地再现场景的颜色,但它最终会产生一个平面图像。
追求更好的3D
相反,全息图对每个光波的亮度和相位进行编码。这种结合提供了一个场景的视差和深度更真实的描绘。因此,虽然莫奈的“睡莲”照片可以突出绘画的色彩品味,但全息图可以使作品栩栩如生,呈现出每一笔笔触的独特3D纹理。尽管全息图是现实主义的,但它的制作和分享仍面临挑战。
计算机生成全息图通过模拟光学装置避开了这些挑战。但这一过程可能是一个计算过程。因为场景中的每个点都有不同的深度,所以不能对所有的点都应用相同的操作,Shi说。这大大增加了复杂性,从某种程度上讲,计算机生成的全息图有点像是在想如何切蛋糕。利用物理模拟计算空间中每个点的外观是一个耗时的过程,类似于精确切割出8片蛋糕。使用计算机生成全息图的查找表就像在切割前标记每一片的边界。虽然这样做可以通过消除计算切割位置的步骤节省一点时间,但执行所有八次削减仍然需要大量时间。
他们利用深度学习来加速计算机生成全息图,从而实现实时全息图的生成。研究小组设计了一种卷积神经网络,这种处理技术使用一系列可训练的张量来大致模拟人类处理视觉信息的方式。训练一个神经网络通常需要一个大的,高质量的数据集,这在以前的3D全息图中是不存在的。
研究小组建立了一个由对计算机生成的图像组成的自定义数据库。每对匹配一张图片,包括每个像素的颜色、深度信息与相应的全息图。为了在新数据库中创建全息图,研究人员使用了形状和颜色复杂多变的场景,像素的深度从背景到前景均匀分布,并使用一组新的基于物理的计算来处理遮挡。这种方法产生了逼真的训练数据。接下来,算法开始工作。
通过从每个图像对中学习,张量网络调整了自己计算的参数,连续增强了创建全息图的能力。完全优化的网络运行速度比基于物理的计算快几个数量级。这一效率让团队自己感到惊讶。
我们对它的表现感到惊讶,Matusik说。张量全息术只需几毫秒,就可以从带有深度信息的图像中制作出全息图——这些信息是由典型的计算机生成的图像提供的,并且可以从多摄像机设置或激光雷达传感器中计算出来(这两者在一些新的智能手机上都是标准的)。这一进展为实时3D全息术铺平了道路。更重要的是,紧凑的张量网络需要不到1MB的内存。他说:“考虑到最新手机上有几十到几百千兆字节的可用容量,这是可以忽略不计的。”
微软首席光学架构师JoelKollin说,这项研究表明真正的3D全息显示只需要适度的计算需求,是实用的。他没有参与这项研究,但他补充说:“这篇论文显示,与以前的作品相比,图像质量有了显著的改善,这将为观看者增加真实感和舒适感。Kollin还暗示,像这样的全息显示甚至可以根据观看者的眼科处方进行定制。全息显示可以纠正眼睛的像差。这使得显示图像可能比用户使用隐形眼镜或框架眼镜看到的图像更清晰,因为隐形眼镜或框架眼镜只能校正像焦距和散光这样的低阶像差。”
进步神速
实时3D全息将增强一系列系统,从虚拟现实到3D打印。该团队表示,新系统可以帮助VR观众沉浸在更真实的场景中,同时消除长期使用VR带来的眼睛疲劳和其他副作用。这项技术可以很容易地应用在调节光波相位的显示器上。目前,大多数价格合理的消费级显示器只调节亮度,但如果广泛采用,相位调节显示器的成本会下降。
研究人员说,3D全息术还可以促进3D立体打印的发展。事实证明,这种技术比传统的逐层3D打印更快、更精确,因为立体3D打印允许同时投影整个3D图案。其他应用包括显微镜、医学数据可视化以及具有独特光学特性的表面设计。
Matusik说:“这是一个相当大的飞跃,可以彻底改变人们对全息影像的态度。我们觉得神经网络就是为这个任务而诞生的。”
(文章源自:IEEESpectrum、MITNEWS编译:Doris文章仅用于技术交流)