Vision Pro 沉浸式视频再上新，前 Google 技术专家揭秘背后独特算法

爱范儿

3周前

苹果的空间视频技术明显与NextVR有关，曾在微软工作12年的技术专家MikeSwanson，在其博客中为我们详细介绍了AppleVisionPro沉浸式视频的制作过程。

VIsion Pro

沉浸式视频

的背后

Apple Vision Pro 的「杀手级」应用到底是什么？

网友制作的关于 VIsion Pro 的梗图

这个问题从它诞生的那天起就一直不断被提起，同样被不断提及的还有 Vision Pro 的销量。

根据 IDC 的数据，从发布至今的一年半时间里，Vision Pro 尚未在一个季度内售出 10 万台，今年第三季度其在美销量预计将下降 75%。

不仅是销量的下降，其热度也经历了 WWDC 2023 刚结束后万人空巷争相体验之后，在一个月后就迅速「冷却」，到如今热度远不如 iPhone、iPad 甚至是 Apple Watch。

Google 美国搜索趋势

这其实也并非苹果一家的问题，从 Meta 到 Sony，各家 VR/AR 设备层出不穷，但是相关内容产业却一直迟迟不见起色，这也是虚拟现实一直饱受诟病的原因之一。

问题在于，如果只是作为一个大屏显示器使用的话，并不能完全发挥 Vision Pro 的全部潜力。

那么苹果是怎么解决的？答案或许就是 VisionOS 2，但这还远远不够，VIsion Pro 真正需要的是更多更好的原生内容，独特的 Apple TV 沉浸式视频可以看作是不错的尝试，这也是很多人在第一次戴上 Vision Pro 时产生「Amazing」感受的原因。

9 月 6 日，苹果最新的沉浸式视频系列《Elevated》将登陆 Vision Pro，它在鸟瞰夏威夷、英格兰等地自然风光视角的基础上，又增加了更多的引导内容：

在当地知名导游的带领下，以全新的视角进行空中之旅，探索世界上最壮观的景观。

一同登陆的还有由奥斯卡金像奖获奖者 Edward Berger 编剧并执导，号称 Vision Pro 上「第一部剧情短片」的《Submerged》，特别设计了多层次的空间叙事结构，使观众能够在虚拟空间中探索不同的视角。

还有美国著名橄榄球联赛「超级碗」的《超级碗 LVIII 内部 4 分钟（4 Minutes Inside Super Bowl LVIII）》等一系列全新沉浸式视频短片。这一批专为 Vision Pro 制作的影片涵盖了多种类型和主题，从自然景观到体育赛事，从剧情片到科幻片，进一步丰富了其内容生态，不少网友都对此表示非常期待。

提及苹果的沉浸式视频内容生态，离不开一个曾经在业界非常具有影响力的名字——NextVR。

这是一家专注于提供体育赛事、演唱会等 VR 直播的企业，拥有从拍摄、压缩、传输和 VR 内容制作全流程的 40 多项专利，在被苹果收购前就是行业内绝对的「头号玩家」。

由 NextVR 制作的《跟随我的脚步：2016 年 NBA 总决赛的故事》成为首批单集接近电视剧长度的虚拟现实电影之一。NextVR 还曾推动 VR 体育和音乐现场直播方面通过独特的算法能够使其降低传输视频所需带宽，使 VR 视频更易传输和普及。

2020 年，在被苹果收购后，NextVR 的名字渐渐淡出人们的视野，取而代之的就是苹果关于空间视频设备的新闻层出不穷——直到三年后，Apple Vision Pro 正式发布。

而苹果的空间视频技术明显与 NextVR 有关，曾在微软工作 12 年的技术专家 Mike Swanson，在其博客中为我们详细介绍了 Apple Vision Pro 沉浸式视频的制作过程。

Vision Pro 沉浸式视频的台前幕后

我们知道，人眼之所以能够感知 3D 视频中的立体感，源于我们大脑对双眼视觉差异的处理能力。

每只眼睛从略微不同的角度捕捉同一场景，产生两幅稍有差异的图像。大脑将这些图像整合，从而形成深度感知和立体效果。

在 3D 视频中，通过分别传递给左右眼不同的影像，模拟了这种自然的视觉差异，使观众感受到画面中的空间层次和物体的远近关系。

因此为了更多地捕捉图像信息，在录制的时候离不开多角度广角/鱼眼镜头拍摄。佳能在 2021 年就开始构建了用于 3D VR 影像制作的 EOS VR 系统，用户可以通过 RF5.2mm F2.8 L DUAL FISHEYE 与佳能 EOS R5/R5 C 组合，拍摄 8K 分辨率的 VR 或是 3D 视频。

今年佳能又与苹果合作发布了适合 APS-C 画幅相机的 RF 镜头 RF-S7.8mm F4 STM DUAL，拥有更接近人眼的有效视野，以及更好的通用性。

安装在 EOS R7 上的 RF-S7.8mm F4 STM DUAL 镜头

传统 3D 视频通常由多个广角/鱼眼镜头拍摄，然后通过「等距柱状投影」的方式映射到矩形视频帧，达到将 2D 视频转换到立体空间的目的，这个过程中采用了类似于地球仪展开的模式。

这样做的好处在于能够全部将广角视频信息显示在矩形空间内，但缺点在于上下两端内容会出现一定程度的拉伸，失去空间沉浸感。

用于地图制作的「墨卡托投影（Mercator Projection）」

除了此之外，还有一种方法是通过 180° 等角投影，拉伸图像边缘以填充整个矩形框架，不过这显然也会使图像边缘出现较大变形，难以保留细节。

Apple Vision Pro 视频也同样由多个广角视频拍摄，但不同的是，苹果通过一种带有倾角的空间映射，使用基于两条对角线的维度表示视频帧播放的垂直维度，增加像素的数量，减少拉伸造成的画面畸变。

这样做还有一个好处在于，这种「放射状拉伸」的算法，能够让位于视频中间「地平线」的像素最多，由于大多数人在观看视频时都会注意到视频中间的拉伸，保留这一细节对于观看体验也会产生巨大的影响。

为了实现更好的沉浸式效果，视频通常需要以高分辨率和高帧率录制，以确保图像清晰且流畅。

在以往传统的 2D 平面视频中，「4K 视频」通常意味着 3840×2160 的分辨率、16:9 的宽高比，「8K 视频」则基本上意味着 7680×4320，宽高比为 16:9。

而且 Vision Pro 呈现的视图并非传统的 16:9 宽屏，而是 4320×4320 的 1:1 正方形视图。

不同框架尺寸和布局比例对比

这种视图的好处在于能够最大化利用视场（Field of View，FOV），无论是头部轻微的移动，还是视线的变化，都可以让观众捕捉到更多的细节，带来更接近自然的观看方式。

此外，视频的元数据中包含了关于视图、投影格式和其他空间视频特定参数的信息，高效视频编码的多视图和 3D 扩展技术也在空间视频的制作中发挥着重要作用，

Apple 使用的 MV-HEVC（Multiview High Efficiency Video Coding 多视图高效视频编码）通过主视图和辅助视图差别信息的方式存储信息，技术相比传统双眼画面并排显示的方式而言，这种技术利用了视差信息来减少所需的数据量。

在 MV-HEVC 中，视频被编码成一个基础层和多个增强层，每个层代表不同的视图或同一视图的不同细节级别。这种设计允许多个视图共享相同的基础层数据，同时通过增强层添加额外的视图特定信息。

不同视图会被分为时间候选块、视差候选块、子块运动预测候选块等

在 MV-HEVC 的编码过程中，还使用了视差矢量预测（Inter-View Prediction, IV Prediction）技术，这种技术允许从其他视图的已编码帧中预测当前帧的像素值。据介绍能够显著减少编码所需的比特率，因为它利用了不同视图之间的时间相关性和视差信息。此外，MV-HECG 还支持多种预测模式，包括时间预测、视差预测和混合预测，以适应不同的场景和视图关系。

一个在不同视图及时间轴上使用移动矢量预测方向残差的案例

在实际应用中，MV-HEVC 的多层编码设计还使其视频流可以更加灵活地适应不同的网络条件和设备能力。例如，移动设备可能只解码基础层以快速显示基本视图，而更高端的设备可以解码更多的增强层以提供更丰富的立体视觉体验。这种灵活性不仅提高了视频内容的可访问性，也优化了带宽使用和存储效率。

因此，在后续更廉价版 Vision Pro 中，我们也可以体验到由这项技术而来的沉浸式视频。不久前 Mark Gurman 曾表示，苹果计划将 Vision Pro 变成 iPhone、Apple Watch 一样的「多产品品类」，包含二代 Vision Pro、AR 眼镜、评价头显在内的多款设备正在齐头并进开发中。

Apple 对于 Vision Pro 未来销量的预期

或许对我们很多消费者而言，只会更多地看到 Vision Pro 在硬件形态和理念上的创新，但正是这些技术上的革新作为背后支撑，才能让 Apple Vision Pro 带来的视觉体验真正与众不同。

而在此基础上不断丰富的独特内容，正在渐渐成为 Apple Vision Pro 的「护城河」，这才是 Vision Pro 真正的「杀手级应用」。

如果说「电影的出现，让人的生命延长了三倍」，那么 Apple Vision Pro 沉浸式视频的出现，或许会让这「三倍」的生命更有质量。

为什么说 iPhone 16 的最大卖点，是一块镜子？

苹果 iPhone 16 不支持微信？不可能，绝对不可能