苹果MR设备Vision Pro技术解析：极限堆料下，空间计算新时代开启

文/VR陀螺案山子

(资料图片仅供参考)

在经历了冗长的iPhone、iPad、Apple Watch、Mac产品与系统介绍后，现场的所有观众，以及远程所有沉浸在“不眠之夜”里的从业者们，在库克的一声“One more thing”下，开始轰动起来。沉寂的现场也响起了轰鸣的掌声和尖叫声。

不知从何时起，苹果发VR/AR设备的消息，就像从业者心中的一块大石，一直悬着，牵动着整个产业……

直到今天，这颗大石终于落下，苹果MR终端——Vision Pro正式发布。而基于苹果加入XR战局，产业将迎来一个全新的时代。

VR陀螺有幸在现场见证这一时刻，怀着无比激动的心情，我们也不禁想要剖析，苹果的首款MR设备，究竟蕴含了什么意义，哪些技术点值得关注。

图源：VR陀螺

新的空间计算时代开启，向着终极目标——AR

“今天标志着计算技术新时代的开端”。苹果公司CEO Tim Cook（以下简称库克）说兴奋地说道。

“如同 Mac将我们带入个人计算时代， iPhone将我们带入移动计算时代，Apple Vision Pro将带我们进入空间计算时代。基于 Apple 数十年的创新积累，Vision Pro 是遥遥领先的空前之创，带来革命性的全新输入系统和数以千计的创新技术。它为用户带来绝佳体验，并为开发者带来振奋人心的新机会。”

计算平台从PC发展至手机，虽然屏幕实现了从大到小，使用场景从家用到移动便携，从非智能到智能，但是人机交互、人与人、人与世界的交互方式，仍然被局限于一块2D的显示屏中，它有界限，所以无法提供极致的沉浸感，这也是VR一出现就让万千从业者兴奋不已的原因所在。

未来的互联网形态，将是3D空间互联网，将彻底改变人与机器、人与人、物与物之间的交互方式。而未来3D空间互联网的入口，在实现脑机接口之前，VR陀螺认为一定会是VR、AR终端。

但究竟是VR还是AR终端，如果单从业界目前对产品的划定来看，苹果Vision Pro从形态和技术路径上来看，显然会被划入到VR的行列中，它通过全彩“Video See Through”（以下简称VST）来实现MR融合效果，在此之前，包括Meta、PICO以及其他的创业公司VR头显均已在此方向推出相关产品。

MR的光学形态分为VST与OST，相比VR通过摄像头先将现实捕捉下来再传入到虚拟世界，通过算法进行融合，AR产品则直接通过光学（Optical）实现了真实世界的透视，通过对真实环境的感知让虚拟物体与之融合。

图源：苹果

以上是目前核心的两种产品形态下，实现MR的技术形式。而苹果之所以并没有直接在现阶段推出基于OST的AR产品，而选择了基于VST的VR产品，这背后与底层技术发展、供应链、产业生态息息相关。

VR在多年的发展迭代过程中，很多东西都已经逐步形成标准，如光学从菲涅尔透镜过渡到Pancake，相应的技术路径、实现效果以及生产工艺都已经得到验证和完善；其他相关技术，如VST融合、眼动追踪、手势识别等等，也都应用相对广泛。此外，VR的产品形态和内容生态也在多年的积累中，达到2000多万台出货量级，于消费市场有了一定的认知和生态基础。

反观AR，对于所有人理想中的终极目标——如普通眼镜般轻薄、大FOV、低功耗、长续航、多场景、全天候佩戴……底层光学技术还处于极其分散的状态，棱镜、自由曲面、Birdbath、阵列波导、衍射波导、体全息波导并存，针对不同场景采用不同的光学方案也不一致。而面向消费市场，能够满足终极目标要求的产品，所涉及到的光学技术、显示、交互、量产工艺、电池、功耗等等，都还需要时间迭代。另一方面，面向消费市场的AR产业生态基础也更为薄弱，特别是内容开发生态，以及内容的商业模式，它们尚未跑通。

图源：VR 陀螺

诸多因素下，现阶段显然相较于AR，VR路径更为靠谱。

在不久前，VR陀螺曾经发布一篇文章《苹果MR头显，一次创新的折中》，从2016年开始，库克几乎有超过20次在公开场合表达对AR的看好，部分的交流中还提到了他对VR和AR的态度差异。总结来看，库克的目标一直很清晰——AR。

“VR和AR都很有意思，但我目前认为二者之间，AR将更具价值。AR可以让我们两个人都坐下来并且面对面彼此交谈，并且我们还能看到一些其他的东西。这些东西可能与我们正在谈论的事情有关，可能是一些不在场的人假装在场。”

“我非常相信AR。它可以增强我们正在进行的对话，增强学习能力，并真正放大技术与人的价值，而不是封闭或关闭现实世界。”

“AR最终会像一日三餐一样成为每个人生活的一部分，就像iPhone一样。与AR相比，尽管VR也很重要，但它的应用领域不会那么大。”

“我认为AR非常有趣，是一种核心技术。所以，我们谈到（我们在）幕后做了很多事情。”

“AR对于世界的影响将与互联网本身一样深远。”

“我认为这（AR）将是一个像智能手机一样的大创意，会像智能手机一样适合所有人。”

……

图源：网络

库克对AR的热情不必多言，只是，多年传言多年跳票的MR设备，为什么会在这样的一个时间点发布，VR陀螺认为可能会有多方面因素。

技术路径确定了之后，首先产品端的完成度达到了一定程度。不论是VR还是AR终端，核心技术涉及诸多板块，特别是苹果封闭的生态下需要做的基础工作会更多。产品、光学、交互、算法、芯片、系统，一套新的技术形态和技术范式下，很多东西都需要从头开始，而苹果也为此布局了多年，才能够实现如今各层面的打通，当然它仍然不完美，所以才有了发布前传闻苹果内部出现对产品不同声音的消息。

其次笔者认为，库克自身对推动革命性技术范式的产品是有“执念”的。自2011年8月成为苹果CEO开始，库克至今正式任职已超过4302天，超过了史蒂夫·乔布斯的4249天。而据媒体报道，在10年任期届满前一年，董事会又授予了他新的股票期权，准备挽留他到2025年。

库克商业能力无可厚非，但一直被诟病创新不足，而VR、AR恰巧是跨时代的创新产品。

正如库克所说，“今天（Vision Po发布）标志着计算技术新时代的开端”。或许这既是执念，也是库克自身对苹果的“使命”所在。

极限堆料，苹果MR头显技术拆解！

行业之所以如此相信苹果能引领风向，必然离不开苹果的产品力。风格独特、标签鲜明，不去问用户需要什么然后去满足，而是创造一种产品去引导用户需求。在这样的产品理念下，苹果在整个消费电子市场上取得了巨大的成功，也成为了产业技术的风向标。

这也是为何所有人都期待苹果为产业带来变革。

首先看一下苹果Vision Pro产品参数及核心功能：

图源：VR陀螺

在VR陀螺看来，苹果Vision Pro产品，让行业见证了不计成本堆料，以实现天花板级效果的产品思路。最终也导致了售价达到3500美金。

在Vision Pro中，有几个部分的技术板块比较值得关注：

1.42英寸Micro OLED 4K显示屏

显示方面，Vision Pro主显示屏采用Micro OLED，单眼分辨率达到4K，这是目前市场上首次出现的使用Micro OLED实现双目8K效果的产品，而事实也证明了，超高分辨率所获得的视觉体验反馈总体非常正向，已知的体验了产品的人几乎都给出了相当高的评价。

目前市场上大部分的VR产品，出于成本考虑，大多采用LCD或者Mini LED背光+LCD的形式，优势很明显，成本低、量产成熟良率高，缺点也明显，亮度、ppi、对比度和色域等各方面参数也更低。

不同屏幕参数对比，图源：VR陀螺

所以如Quest 2、PICO 4价格都在2000-3000元之间。而Micro OLED单块屏的价格就已高达上百甚至数百美元。据了解，苹果的Mirco OLED为完全定制，尺寸达到1.42英寸，属于目前尺寸最大的Micro OLED屏。

Micro OLED显示屏需要采用半导体工艺，在量产工艺上实际已经成熟，只是之前大部分的产品应用于单反相机的取景器等领域，出货已经达到百万级别；此外，这几年Birdbath方案的AR眼镜也是Micro OLED的一个重要应用阵地；但前面这些领域所使用的屏幕尺寸都在1英寸以内，如AR眼镜所采用的尺寸多为0.71、0.68、0.49英寸三个尺寸，而之所以没有出更大尺寸的产品，是由于之前并没有相关的市场需求。

如今应用到VR产品中，为了获得更大的FOV，也就需要更大的屏幕支撑，所以供应链企业都在着力研发1.3英寸以上的Micro OLED屏幕。这也意味着对量产工艺有更高的要求，因为即便工艺成熟，但要在扩大两倍的屏幕上，维持同样的质量标准，如色彩、灰阶、亮度、均匀性、坏点等都不超出原有质量标准，所以提升良率是目前Micro OLED厂商需要面对和解决的问题核心。

M2+R1双芯片搭配

双芯片搭配也是目前MR设备（主要指VR）中首次出现的方案。M2原本就属于苹果最高规格系列SOC，主要用于Mac电脑中，所以用在此次的MR设备中相当于将PC端的处理能力带到了移动端。

M2芯片性能图，图源：网络

由于M2是2022年发布的芯片平台，其性能在此不过多赘述。相比M2，此次发布的M2 Ultra也非常值得关注。它由1340亿个晶体管组成，比M1 Ultra多200亿个。虽然尚未用在MR设备中，但介绍的很多技术性能显然是有针对性的优化的。如GPU性能是M2 Max的两倍，可实现极快的ProRes加速。在配备M2 Ultra的Mac Studio上使用Octane渲染3D效果，比配备M1 Ultra的Mac Studio快3倍；32核神经网络引擎，每秒可提供31.6万亿次运算，比M1 Ultra快40%；具有专用的、支持硬件的 H.264、HEVC和ProRes编码和解码功能，能够播放多达22个8K ProRes 422视频流；显示引擎最多支持六个Pro Display XDR，驱动超过1亿像素。

核心运算、3D渲染、AI神经网络、视频解码、显示支持等，都是MR中极其需要的核心能力，而且其性能远超现有的VR一体机使用的移动平台SOC的性能。

已经有了如此强大的主处理芯片，为何还要使用协处理芯片也是产品设计中值得玩味的地方。

协处理芯片在AR中目前即将开始应用，如高通发布的AR2，就是针对AR眼镜实现Slam及无线功能的协处理芯片，将空间定位数据用单独的芯片来进行处理，以减轻对主处理器的负荷。如果说AR是基于轻量化和无线化考虑的话，那苹果之所以会用协处理，看起来似乎更像是传感器过多，所带来的处理压力需要分担出来。

在苹果Vision Pro上，共有12个摄像头，5个传感器（其中 1*LiDAR、2*结构光深度传感、2*IR红外传感），他们分别用来处理Slam空间环境感知、手势识别、三维建模和眼动追踪等功能。

图源：苹果

对运算比较高的主要来自实现VST的两个4K RGB摄像头，这是实现高清VST效果的关键，并且其长时间属于运行状态。Quest Pro上仅搭载1个1600万像素的RGB，所以传输到眼镜中的现实画面清晰度较低。

Vision Pro支持虚拟和现实环境无缝切换。与其他产品直接从虚拟一键切换到现实的效果不同的是，Vision Pro通过旋钮实现精准丝滑的渐变效果。而为了实现这个效果，协处理器中RGB VST的处理需要一直工作，即便在纯虚拟环境下也处于工作状态，以便为用户随时切换。双4K RGB摄像头以每秒60帧频率不断拍摄，为数据处理带来了庞大的计算量，以及相应的功耗，所以作为协处理芯片，R1的制程达到了5nm。

高清+流畅的VST效果是Vision Pro的技术亮点之一，根据官方公布的数据，其图像延迟低于12ms。

据了解，延迟分为物理延迟和入眼延迟，苹果此处所指应为物理延迟。

所谓的物理延迟也就是传感器出来经过协处理器，到直接上屏的时间。但是上屏幕之前算法必须要做补偿，算法不补的延迟称为物理延迟，算法补完后称为入眼延迟。

据了解，如果使用Meta这种不经过协处理器的情况下，经过CPU、GPU处理，物理延迟约30-40ms，物理延迟越大，算法补出来的效果就会稍微有点欠缺。所以苹果物理延迟做到极致以后，它算法补出来的效果就会特别的好，这也是为什么VST效果几乎感觉不到延迟的主要原因。

协处理芯片与主处理芯片处理VST的路径差异，图源：VR陀螺

对比两种不同的处理路径，显然协处理在VST这个板块效率要更高。

除此两个4K RGB摄像头的图像处理之外，Vision Pro其他传感器的使用数量也远远超过其他VR设备。以Quest Pro为例，头显上的摄像头+传感器为10个；苹果达到了17个。苹果增加了1个激光雷达和2个结构光深度传感器，用来实现更好的三维空间建模和空间感知，以及用于创建Avatar的面部三维重构。应用场景中的3D图像和视频拍摄就是基于这些传感器结合RGB摄像头来实现。

在眼动追踪部分，苹果也采用了4个摄像头，与此对应的Quest Pro仅使用2个，不得不说，为了效果苹果似乎完全没考虑成本。

疯狂堆料同时也带来了一些弊端——功耗大，单眼4K的Micro OLED屏+众多传感器数据处理，导致了外挂的电池续航仅有2个小时，此外发热应该也是其需要解决的核心问题之一。

（本部分内容感谢协处理芯片企业耀宇视芯杜逢博博士的大力支持）

外置电池，图源：苹果

3P Pancake，光学效果>工艺难度、重量

Pancake折叠光路是目前VR设备的主流光学方案，苹果也不例外采用了该方案。相比传统VR显示光机(菲涅尔和非球面)，Pancake折叠光路设计可以大幅减小厚度，其核心原理是图像源进入半反半透功能的镜片之后，光线在镜片、相位延迟片以及反射式偏振片之间多次折返，最终从反射式偏振片射出。

相比PICO 双镜片的方案，苹果采用了3片镜片，从而实现更好的光学效果。 2P Pancake光学方案原理图，图源：网络

相比于1P、2P Pancake设计(TTL基本在20mm以上)，3P Pancake光机模组不仅能带来更高的清晰度、更小的畸变以及色差之外，经过多次折返其厚度还能进一步缩短。但劣势也比较明显，会增加工艺难度以及物料成本、重量，可见在光学方面，苹果为了实现最好的视觉效果，选择了工艺最难的方向。

此外，由于Pancake的光损较大，所以需要高亮度的屏幕来实现更高的入眼亮度，这也是Micro OLED的优势之一。

从苹果真机厚度来看，（目测）去掉海绵眼罩的头显厚度约30多毫米，得益于优秀的工业设计（视觉错位），整体观感会觉得头显很轻薄。

头显实拍图，图源：VR陀螺隐私安全的最佳方案：虹膜识别

数日前，七鑫易维、腾讯微信支付联合推出的眼动追动+虹膜识别VR/AR内的支付方案的消息公布，VR陀螺也第一时间到创维公司体验了搭载该模组的方案，这也是国内首次在商用VR头显中搭载虹膜识别支付方案。

VR/AR内的支付一直是困扰企业的痛点，基于VR/AR的产品形态和交互方式，目前常用的指纹、面部、密码并不适用，由于难以在体验过程中无缝实现支付，所以大部分的应用采用了在手机APP端以一次性付费下载的方式进行。

虹膜被视为是未来VR/AR中理想的隐私安全技术方案，首先其相比指纹、面部、密码的安全系数更高。虹膜的特征人各有异，连同卵双胞胎也不例外。在出生18个月后，虹膜就已定型，终生不变，受外界气候环境变化、身体变化等影响非常小，是一项非常稳定的生物特征。这决定了虹膜特征的独特性，同时也决定了身份识别的唯一性。因此，人们发现，将虹膜作为密码，具有更好的长期安全性。

图源：苹果

虹膜识别实际上也是比较成熟的技术，早是20多年前就已经应用于安防级别较高的军事、科研单位等，如今也逐渐开始应用到消费市场，包括部分手机上。

虹膜的主要原理是通过图像采集系统，采集虹膜照片后对图像预处理，从采集图像中，准确定位找出虹膜，并进行图像增强处理；接下来提取虹膜特征，采用特定的算法从虹膜图像中提取出虹膜识别所需的特征点，并对其进行编码；最后匹配虹膜身份，将特征提取得到的特征编码与数据库中的虹膜图像特征编码逐一匹配，判断是否为相同虹膜，从而达到身份识别的目的。

其核心方式与面部、指纹相似，安全系数更高主要在与虹膜的重合率极低，且不会轻易被别人采集用于违法等活动。

同时，其与VR/AR天然结合。据了解，在VR/AR设备中可以直接共用眼动追踪模组来对虹膜进行拍摄和识别，不需要额外的硬件模组，并且，其对于捕捉端的像素要求不高，200万像素就可以实现比较好的效果。

在识别率和适用性上，虹膜几乎对所有不同瞳色的人，都能实现很准确的识别，即便是青光眼、白内障等眼疾人群，理论上也不会影响，因为眼疾影响的不是虹膜信息，而是晶状体部位。但是有些疾病，比如说不小心把眼睛的瞳孔变成椭圆或者方形，那基本上就很难识别了。

可以预见的是，国内腾讯推动，海外苹果MR内置的虹膜功能，或许很快就能在更多的VR终端中看到。

（本部分内容感谢虹膜识别企业点与面科技程总的大力支持）

图源： VR陀螺

实时+高自由，空间音频射线追踪技术

相比视觉，听觉的重视程度并不高，不过苹果在这方面也有所布局，在此次Vision Pro中有所呈现。

就像光线追踪一样，声音也可以用射线追踪，这种被称为几何声学（GA）。早在2021年，苹果就公布了相关的技术专利。

与可视化类似，虚拟环境的所谓 "听觉化 "描述了声音在围墙内传播的模拟，其中几何声学（GA）的方法可用于模仿合成声波的某些现实行为带来的听觉刺激。

图源： VR陀螺

据了解，在这种模拟中，可以生成空间音频信号，其考虑到了三维环境中的各种声波反射模型，以及声波混响模型。这种空间音频可以例如使用数字音频工作站(DAW)软件等生成，并可用于各种应用，如房间规划和/或音乐及建筑声音模拟。

目前的空间音频合成软件通常可以管理实时模拟移动接收器周围的移动声源的计算负荷，然而，这些模拟往往是基于静态混响的。在现实世界的场景中，声波和反射性/阻碍性表面之间存在着显著的相互作用，例如，在进入或离开房间的时候会出现变化。此外，当用户（或虚拟用户）听着合成的音频信号浏览真实世界（或虚拟）环境时，房间里的各种门户（如门、窗、屋顶）可能动态地打开和/或关闭。房间的建筑或场景构成中的每一个变化都会对房间里的声波在任何给定瞬间的实时模拟方式产生重大影响。

图源：苹果

这样一来，就需要改进虚拟三维环境的实时物理精确听觉化技术。这包括其中任何（或全部）的环境：声源、声音接收器和虚拟环境中的几何/表面可能在声源被模拟时产生的动态变化。这种技术也可应用于增强现实（AR）场景，例如，将额外的声音信息添加到听众的现实环境中，以准确模拟听众现实环境中不存在的 “虚拟”声源对象。

所以当用户不论走到虚拟空间中的哪个位置，都能听到实时处理的遍布于空间内拟真的声音效果，这些声音会根据空间内的物体位置、甚至材质，以及实时移动的人产生变化，从而使其更真实。

不过据了解，该技术当空间中物体复杂、人很多的时候，其需要处理的声音射线也将程指数级增长，从而对性能产生一定的负载。

但是，基于该技术，未来在虚拟环境中也能够获得更为真实的声音效果。当然与之相对应的，可能未来虚拟场景内的三维物体不仅需要定义光学的反射材质，同时还需要定义声学的材质，如桌子、墙面、窗帘都需要逐一设定。

结语

由于篇幅有限，本文暂时只介绍硬件中的几个较为显性的技术部分，后续将针对场景和生态进一步解读。

苹果对Vision Pro的官方定义——一台革命性的空间计算设备，从技术上来看，苹果在从视觉、听觉、交互多方面来体现它的革命性。

*声明：本文为VR陀螺原创，禁止一切形式转载