图片

本文转载自 Web3 天空之城,作者:天空之城城主

以下是 a16z 对李飞飞的最新访谈。

我们知道,a16z 投资了李飞飞刚刚官宣的 AI 创业公司。在这场深度访谈中,李飞飞从个人经历与技术发展的角度,详细解读了人工智能领域的变革与未来趋势。

她回顾了从「人工智能寒冬」到「深度学习」腾飞的历程,阐述了计算能力、数据和算法进步对 AI 发展的推动作用。

她认为,视觉空间智能和生成模型的融合将为未来技术开辟全新的应用场景,从自动驾驶、机器人技术到虚拟现实,无不将受益于这种智能的广泛应用与落地。

她进一步探讨了如何通过多模态数据和自监督学习推动 AI 的自主进化,以及未来 AI 在三维世界中感知、推理和行动的潜力。

这场对话也揭示了人工智能在未来十年将如何突破边界,重塑我们的社会、科技与生活。

以下为采访全文

视觉空间智能和语言一样基础。我们已经拥有计算和数据的深入理解,并在算法方面取得了一些进展。现在是集中精力并解锁这些要素的正确时机。

在过去的两年里,我们见证了消费者人工智能公司和技术的大规模涌现,这令人惊叹。但您已经在这一领域工作了几十年,能否简单介绍一下我们是如何走到这一步的,并分享一下您的主要贡献和见解?

人工智能正处于一个非常激动人心的时刻。

回顾过去二十多年,我们已经走出了上一次人工智能的寒冬,见证了现代人工智能的诞生。深度学习的腾飞让我们看到了下棋等可能性,随后我们目睹了技术的深化和行业对一些早期可能性的采用,例如语言模型。现在,我们正经历几乎字面意义上的寒武纪大爆发,除了文本之外,像素、视频、音频等都可能成为人工智能的应用和模型。这是一个非常激动人心的时刻。

虽然很多人对您非常熟悉,但并不是每个人都在人工智能领域成长起来的。能否简单介绍一下您的背景,让观众大致了解您的经历?

我第一次接触人工智能是在本科毕业后。当时,我在加州理工学院学习数学和计算机科学,这段经历非常精彩。毕业前不久,我读到一篇非常著名的论文,猫论文,作者包括当时在谷歌大脑工作的 Polnack Lee、Andrew Ng 和其他人。这是我首次接触深度学习这个概念,令我感到这是一项令人惊奇的技术。

图片

在 2011 年或 2012 年左右,我第一次接触到深度学习这个想法,当时我认为这就是我未来生活的方向。为了从事这一领域的研究,我决定继续读研究生。后来我发现 Fei-Fei 在斯坦福大学工作,她是当时为数不多的跟上这一潮流的人之一。

那段时间是深度学习和计算机视觉领域最美妙的时代,深度学习技术从初期发挥作用逐渐发展并传播到大量不同的应用中。在那段时间里,我们见证了语言建模的初露端倪,以及判别式计算机视觉的开端。你可以拍摄照片并通过多种不同的方式了解照片中的内容。

我们还见证了一些现今称为 GenAI(生成式人工智能)的早期发展,如生成建模、生成图像和生成文本。在我攻读博士学位期间,学术界实际上已经解决了许多核心算法。有一段时间,我每天早晨醒来都会查看 Archive 上的新论文,做好准备。这种感受就像圣诞节拆礼物一样,每天你都知道世界上某个地方有新的惊人发现、新的应用或者算法。

过去两年里,全球其他人也开始意识到这一点,每天都在利用人工智能获得新的「圣诞礼物」。然而,对于我们这些在这个领域工作了十年或更长时间的人来说,这种经历已经持续了很久。

显然,我比贾斯汀年长很多。我从一个不同的角度研究人工智能,即从物理学开始,因为我的本科背景是物理学。物理学是一门教你思考大胆问题、思考世界未解之谜的学科。在物理学中,这些未解之谜包括原子世界和宇宙等问题。不知为何,这种训练使我进入了一些真正激发我想象力的大胆问题领域,其中之一就是智能。

因此,我在加州理工学院攻读了人工智能和计算神经科学的博士学位。尽管我和贾斯汀没有直接重叠,但我们都来自加州理工学院,拥有同一位顾问——Pietro Parona。是的,同一个导师,你的本科导师也是我的博士导师。

我读博士的时候,和你读博士的时候差不多,那时人工智能在公众视野中还处于寒冬期。但在我看来,人工智能并不是寒冬,而是春前冬眠,充满了生机。机器学习和统计建模正在真正获得力量。我认为我是机器学习和人工智能的原生代,而贾斯汀那一代是深度学习的原生代。机器学习是深度学习的前身。我们试验了各种模型。

在我攻读博士学位和担任助理教授期间,人工智能中的一个被忽视但在数学上对推动泛化极为重要的元素逐渐显现,那就是数据。当时,我们在探讨贝叶斯模型的复杂性和核方法等问题时,整个领域都未认识到数据的重要性。

图片

然而,我的学生和实验室可能比大多数人更早意识到,如果让数据驱动模型,就能释放出前所未有的力量。这就是我们在 ImageNet 上押下重注的真正原因。忘掉我们现在看到的规模,当时的数据点是成千上万的。

当时,NLP(自然语言处理)社区有自己的数据集。我记得加州大学欧文分校的一些数据集非常小。此外,计算机视觉社区也有自己的数据集,但仅有数千或数万个。这些数据集需要扩展到互联网规模。

幸运的是,那也是互联网成熟的时期。所以我们顺应了这股潮流。我来到了斯坦福。当时,我们经常谈论的时代,比如 ImageNet,显然是让计算机视觉流行和可行的时代。

在生成式人工智能(Gen AI)浪潮中,我们谈论两种核心的技术突破。一种是像《Transformers》论文提出的注意力机制,另一种是稳定扩散(Stable Diffusion)。我们在思考这个问题时,是否只考虑这两种从学术界或谷歌来的技术突破是所有发展的来源,还是有其他重大突破,但我们没有多加谈论的呢?

我认为主要的突破是计算能力的提升。我知道人们经常谈论这个问题,但我认为它被低估了。过去十年中,我们看到了计算能力增长的惊人速度。

第一篇真正被誉为深度学习在计算机视觉领域取得突破的论文是 2012 年的 AlexNet。在 ImageNet 挑战赛中,深度神经网络表现非常出色,完全击败了 Fei-Fei Li 一直在研究的其他算法。这些算法类型是你在研究生院时所学习的。

AlexNet 是一个拥有 6000 万参数的深度神经网络,它在两台 GTX 580 显卡上训练了六天。GTX 580 是当时最顶级的消费级显卡,于 2010 年推出。我昨晚查了一些数据,只是为了把它们放到一个角度来比较。NVIDIA 最新、最强大的产品是 GB200。你们想猜一下 GTX 580 和 GB200 之间的计算能力差距是多少吗?

天哪,猜不到,数以千计的差距吧。

昨晚我计算了一下,如果在两块 GTX 580 上训练六天的任务,在一块 GB200 上只需要不到五分钟。Justin 说得有道理。

2012 年 ImageNet 挑战赛上的 AlexNet 论文实际上是一个非常经典的模型。这是一个卷积神经网络模型,最早的论文发表于 1980 年代。我记得读研究生的时候学过这个。

实际上,AlexNet 和 ConvNet 之间的唯一区别在于 GPU 的使用、两个 GPU 的配备以及海量的数据。

这个惨痛的教训是,如果你制作一个算法,不要过分自信。只要确保你可以充分利用现有的计算能力,这种计算能力是随时可以使用的。

另一方面,还存在另一种说法,在我看来同样可信,那就是这种算法实际上解锁了深度学习的新数据来源。

ImageNet 是一个很好的例子。Transformer 自注意力非常出色,但有人会说这是利用人类标记数据的一种方式,因为人类在句子中引入了结构。看看 Clip,我们使用互联网让人类通过 alt 标签来标记图像。因此,这更像是数据的问题,而不是计算能力的问题。

那么,究竟是两者兼而有之,还是其中一个比另一个更重要?我认为两者都是重要的,但你也提出了另一个非常好的观点。

我认为实际上存在两个时代,算法在这两个时代中显得非常不同。ImageNet 时代实际上是监督学习的时代。在监督学习时代,你拥有大量的数据,但你不知道如何使用这些数据。

ImageNet 和当时其他数据集的预期是,我们会获得大量图像,但我们需要人工标记每张图像。所有的训练数据由人工标记员查看并对图像进行评论。

算法的重大突破在于,我们知道如何训练不需要人工标记的数据。作为非人工智能背景的旁观者,我认为,如果你在人类数据上进行训练,这些数据已经被人类标记过了,只是标记不明确。

从哲学上讲,这是一个非常重要的问题,但在语言上的表现比在像素上的表现更为真实。尽管如此,我认为这是一个重要的区别,因为 Clip 确实是人工标记的。人类已经弄清了事物之间的关系,然后算法学习它们。

因此,虽然标记是隐性的多于显性的,但它仍然是人工标记的。在监督学习时代,我们的学习任务受到更多限制。你必须确定要发现的概念本体。如果你在做 ImageNet,当时 Feifei 和她的学生花了很多时间思考应该在 ImageNet 挑战赛中包括哪些类别。其他数据集,比如用于物体检测的 Cocoa 数据集,也同样认真思考了应该包含哪些类别。让我们走向生成式人工智能(Gen AI)。

在你来之前,我在攻读博士学位时,从 Andrew Ng 那里学习了机器学习,并从 Daphne Koller 那里学习了贝叶斯方法。这些内容对我来说非常复杂,其中许多只是预测模型。我记得你解锁了整个视觉内容领域。

图片

但后来,生成式方法出现了,在过去的四年里,这对我来说产生了极大的影响。你不仅是在识别或预测某些东西,而是在生成某些内容。

我们可以回顾一下让我们达成这一点的关键因素,并探讨为什么它不同,我们是否应该以不同的方式思考它,它是否是连续体的一部分。即使在我读研究生的时候,生成模型已经存在。我们想做生成,没有人忘记,即使是字母和数字,我们也在尝试。杰夫·辛顿写了一些关于生成的论文。

我们在思考如何生成。从概率分布的角度考虑,你可以用数学方法生成。然而,我们生成的东西从未给人留下深刻印象。生成的概念在数学上、理论上是存在的,但并没有起作用。

我想提一下贾斯汀的博士学位。贾斯汀他迷上了深度学习,所以他来到了我的实验室。他的整个博士学位几乎是该领域发展轨迹的一个缩影。他开始了他的第一个数据项目,我强迫他这么做,虽然他不喜欢,但回想起来,我学到了很多非常有用的东西。现在,他也承认这些经历是有价值的。

我们让贾斯汀转向深度学习,核心问题是拍摄图像并生成单词。我认为这一过程中经历了三个独立的阶段。第一个阶段是匹配图像和单词,尝试通过图像和文字的比对来衡量它们的匹配程度。我的第一篇学术论文和博士论文都是关于用场景图进行图像检索的。

然后,我们开始从像素生成单词,贾斯汀和安德烈在这一方面做了大量工作。然而,这仍然是一种非常有损的生成方式和从像素世界中获取信息的方式。

后来,贾斯汀离开了,并完成了一项非常著名的工作。这是第一次有人实现了实时生成。2015 年,一篇由 Leon Gaddis 领导的关于艺术风格神经算法的论文问世。他们展示了这些现实世界的照片,并将其转换为梵高风格。在 2024 年看到这样的事情已经习以为常,但回到 2015 年,这显然不同寻常。

这篇论文有一天突然出现在我的档案中,让我大吃一惊,就好像在 2015 年我的脑子里出现了这种人工智能算法的「脑虫」。它确实对我产生了影响,我觉得有必要去理解这个算法,去试一试,把自己的图像变成梵高风格。

于是,我读了那篇论文,并在一个长周末里重新实现了它,使其工作起来。实际上,这是一个非常简单的算法,所以我的实现大概只有 300 行 Lua 代码。当时我们使用的是 LuaTorch,因为那是 PyTorch 之前的版本。这是基于优化的算法,对于每一幅你想要生成的图像,都需要运行一次优化循环,即梯度下降循环。尽管这些图像非常漂亮,但速度却很慢,我希望能更快一些。而 Justin 做到了。

在那一刻,我第一次深刻感受到了学术工作对于行业的巨大影响。许多人都注意到了这种艺术风格迁移的技术,我和其他几个人也提出了不同的方法来加快速度。最终,我的方法得到了广泛关注。

对,这也是为什么我为 Justin 感到非常自豪。还有另一个让我自豪的事情,那就是在世界了解生成式人工智能(GenAI)之前,Justin 在博士期间的最后一项工作,我知道它,因为我强迫他这样做。那段经历非常有趣,他实际上是通过输入语言生成整个画面。这是 GenAI 的最早成果之一,它使用了生成对抗网络(GAN),而 GAN 的使用难度非常高。

但问题是,当时我们还没有准备好直接使用自然语言,所以 Justin 研究了场景图。我们必须输入场景图的语言结构,具体的数据如羊、草、天空等都以图形的方式呈现。这其实就是我们手中的一张照片,然后他和另一位非常优秀的硕士生格里姆一起让 GAN 开始工作。

通过从数据到匹配再到风格迁移,到生成图像的整个过程,我们开始看到变化。对于像我们这样的人,这实际上是一个连续的过程;而对世界来说,结果似乎更加突然。

我还读了你的书,对那些在听的人来说,这确实是一本非同凡响的书。我真的建议你读一读。

长时间以来,FeiFei,就像你们中的很多人,我在和你交谈,你的很多研究方向一直是空间、像素和智能。目前,你正在进行的「世界实验室」项目,主要围绕空间智能展开。那么,也许你可以谈谈,这是否是漫长旅程的一部分?你为什么现在决定进行这项工作?是因为技术上的突破还是个人的启示?就像我们从人工智能研究的困境转移到了「世界实验室」。

对我来说,这是个人和智力上的双重探索。关于我的智力旅程,实际上是一种寻找北极星的热情,我坚信这些北极星对我们领域的进步至关重要。

一开始,我记得在研究生毕业后,我以为我的北极星是讲述图像的故事,因为对我来说,那是视觉智能的重要组成部分,也是人工智能或 AGI 的一部分。但当贾斯汀和安德烈展开这项研究时,我惊讶地发现,这是我的直播。我下一步该怎么做?这来得比我预想的快得多,我以为需要一百年的时间才能完成。

视觉智能是我的激情所在,因为我相信每一个智能生物,如人类、机器人或其他形式, 都必须具备看待世界、推理世界和与世界互动的能力,不论是导航、操纵还是制造事物,甚至可以基于此建立文明。视觉空间智能是如此基础,它和语言一样基础,甚至在某些方面可能更古老、更基础。因此,对我来说,「世界实验室」是我们的北极星,解锁空间智能,这是一种自然的选择。现在是进行这项工作的最佳时机。

正如贾斯汀所说,计算能力已经具备。我们对数据的理解比 ImageNet 时代更深刻,与那些日子相比,我们更加成熟。我们在算法方面也取得了一些进展,包括「世界实验室」的联合创始人如 Ben Mildenhall 和 Christoph Lassner 也非常清楚,现在正是集中精力、解决问题的最佳时机。

图片

我要向听众澄清一下,你创办的公司「World Labs」致力于解决的核心问题就是空间智能。你能否更清晰地描述一下这意味着什么?

空间智能是指机器在三维空间和时间中感知、推理和行动的能力。它涉及到了解物体和事件在三维空间和时间中的位置,世界上的互动如何影响时空中的 4D 位置,以及两者的感知、推理、生成和交互。

真正地将机器从主机或数据中心中取出,放入世界中,理解 3D、4D 世界及其丰富内容。在讨论问题时,我们首先要明确所指的究竟是物理世界,还是只是一个抽象的世界概念呢?

对于这一问题,我认为两者兼而有之,这也涵盖了我们的长期愿景。即使您是在生成世界或者生成内容,使用 3D 定位在三维空间中也有很多好处。同样地,如果您是在识别现实世界,那么能够将 3D 理解应用到现实世界中也是非常重要的。

对于听众来说,我要介绍一下另外两位联合创始人,Ben Nothenhall和Christoph Flassner,他们在该领域都是绝对的传奇人物。这四个人决定现在共同创办这家公司。那么,为什么现在是最合适的时机呢?

对于我个人而言,这是一个长期进化的过程。在获得博士学位后,当我真正想发展成为独立研究员时,无论是为了我未来的职业生涯,我都在思考人工智能和计算机视觉中最大的挑战是什么?当时我的结论是,前十年主要是关于理解已经存在的数据,但未来十年我们将致力于理解新数据。

如果我们回顾一下,已经存在的数据包括互联网上所有现有的图像和视频。而未来十年的重点将是理解新数据,比如智能手机收集的带有新传感器的摄像头数据,这些摄像头位于 3D 世界中。这不仅仅是从互联网上得到一袋像素,不知道它们是什么,然后试图判断它是猫还是狗。我们希望将这些图像视为物理世界的通用传感器,探讨如何利用它来理解世界的 3D 和 4D 结构,无论是在物理空间还是生成空间。

因此,我在博士后期间转向了 3D 计算机视觉研究,当时与 FAIR 的一些同事一起预测物体的 3D 形状。后来,我对通过2D学习3D结构的想法产生了浓厚的兴趣。因为尽管 3D 数据本身很难获取,但由于存在非常强的数学联系,我们的 2D 图像实际上是 3D 世界的投影。这里有大量我们可以利用的数学结构。因此,即使我们拥有大量的 2D 数据,也有许多研究人员做了出色的工作,通过大量的 2D 观察数据推导出世界的 3D 结构。

在 2020 年,我们迎来了一个突破性时刻。当时,我们的联合创始人 Ben Mildenhall 发表了一篇名为《神经辐射场》的论文,这是一个非常重要的突破。这是一种非常简单且清晰的从二维观察中推导出三维结构的方法。这点燃了整个三维计算机视觉领域的热情。

我认为还有另一个方面,也许该领域以外的人还不太理解,那也是大型语言模型开始腾飞的时期。因此,语言建模的很多内容实际上已经在学术界得到了开发。

在我攻读博士学位期间,2014 年我曾与 Andrej Karpathy 一起在语言建模方面做了一些早期工作,当时使用的是 LSTM、RNN、BRU等技术,这是在 Transformer 之前。但在某个时候,大约在 GPT-2 时代,学术界已经无法继续开发这些模型了,因为它们需要更多资源。

然而,有一件非常有趣的事情是,Ben 提出的 NERF 方法,你可以在单个 GPU 上花几个小时训练它们。所以我认为当时发生了一种动态变化,很多学术研究人员最终专注于这些问题,因为有核心算法需要解决,并且你可以在没有大量计算资源的情况下取得很好的成果。

由于这些动态变化,学术界有很多研究集中在推动这一领域发展的核心算法上。我最终和 Fei-Fei Moore 聊了聊,我意识到她非常有说服力。你谈到从导师那里找到你自己的独立研究轨迹,结果我们最终集中在类似的事情上。

从我的角度来看,我想和我称之为最聪明的人、毫无疑问的贾斯汀谈谈。我确实想谈一个非常有趣的技术问题,或者说像素的技术故事。大多数从事语言工作的人都没有意识到,然后,就是在生成人工智能时代之前,在计算机视觉领域,我们这些从事像素工作的人,在一个叫做重建、三维重建的研究领域有着悠久的历史,甚至可以追溯到 70 年代。

这包括拍摄照片,因为人类有两只眼睛,所以一般来说,从立体照片开始,然后尝试对几何体进行三角测量,由此创建三维形状。这是一个非常非常困难的问题,直到今天还没有从根本上解决,因为存在对应关系等各种问题。

然后,整个领域,即对三维的旧思维方式一直在发展,并且取得了非常好的进展。但当 NERF 出现时,尤其在生成方法和扩散模型的背景下,突然间,重建和生成开始真正融合。目前,在计算机视觉领域,重建与生成的讨论已经变得非常复杂。当我们看到或想象某样东西时,这两者都可以汇聚并生成它。对我而言,这是计算机视觉中的一个重要时刻,但大多数人都没有注意到这一点,因为我们没有像对待大规模语言模型(LLM)那样去讨论它。

在像素空间中,可以通过重建技术重现一个真实的场景;如果无法看到该场景,则使用生成技术。这两种技术非常相似。在整个对话过程中,我们既在讨论语言,也在讨论像素。因此,或许现在是时候谈谈空间智能及其与语言方法的对比了,毕竟语言方法现在非常流行。它们是互补还是正交的呢?

我认为它们是互补的。尽管我并不想在这里过于超前,但可以稍微对比一下它们。每个人都在谈论 OpenAI、GPT 和多模态模型,认为它们有像素和语言。这是否正是我们希望通过空间推理实现的呢?

为了实现这一目标,我们需要打开黑匣子,看看这些系统在幕后是如何运作的。当前的语言模型和多模态语言模型的底层表示是一维的。我们讨论上下文长度、变换器和序列,关注点在于环境的表示是一维的。这些模型对世界的表示也是一维的,当谈论语言时,这种表示方式是非常自然的,因为书面文本本身就是离散字母的一维序列。这种一维的底层表示就是 LLM 的核心。

然而,现在的多模态 LLM 试图将其他模态强行塞入这种一维标记序列的底层表示中,而转向空间智能则是朝着另一个方向发展,认为世界的三维性质应该成为表示的核心。这为我们提供了以不同方式处理数据、获得不同类型输出以及解决不同问题的机会。

即使从外部观察,多模态 LLM 也能够查看图像。然而,我认为它们的方法核心并未建立在三维表示的基础上。贾斯汀的观点我完全同意,1D 与 3D 表示的区别是最核心的差异之一。

另一个看法有点哲学性,但对我非常重要:语言从根本上来说是一种生成的信号。自然界中不存在语言,你不会走进大自然,天空中也不会为你书写文字。无论输入什么数据,你几乎都可以以足够的普遍性重新生成相同的数据,这就是语言与语言之间的转换。但 3D 世界不是这样的。外面的 3D 世界遵循物理定律,有其自身的结构,这是由于材料和许多其他因素造成的。要从根本上提取这些信息并生成这些信息是一个完全不同的问题。

虽然我们可以从语言模型和 LLM 中借鉴一些类似或有用的想法,但在哲学上,这是一个根本不同的问题。语言是一维的,可能对物理世界是一种糟糕的表示,因为它是由人类生成的,而且可能是有损的。另一种生成式人工智能模型是像素,这些是二维图像和视频。有人可能会认为观看视频时可以看到三维的东西,因为可以平移相机等。

那么,空间智能与二维视频有什么不同?在这里,我认为解开两件事是有用的:一是底层表示,二是面向用户的功能。

有时候我们可能会感到困惑,因为从根本上说我们看到的是二维的——我们的视网膜是身体中的二维结构,我们有两个视网膜。因此,我们的视觉系统从根本上说是感知二维图像的。但根据你所使用的表示方式,不同的可供性可能会更自然或更不自然。

即使你最终看到的是二维图像或视频,大脑也会将其视为三维世界的投影。因此,你可能想做一些事情,例如移动物体或移动相机。

原则上,你可能能够使用纯二维表示和模型来执行这些操作,但这并不适合你要求模型解决的问题。例如,对动态三维世界的二维投影进行建模可能是一种可行的方案。但通过将三维表示放入模型的核心,表示类型和模型执行的任务类型会更好地契合。

因此,我们认为,通过在底层加入更多三维表示,将为用户提供更好的可用性。这也回到了北极星。对我来说,为什么它是空间智能?而不是平面像素智能?这是因为我认为智能的最终目标必须达到贾斯汀所说的可用性。

如果你看看进化,智能的弧线正是如此。智能的弧线最终使动物和人类,尤其是人类这种聪明的动物,能够在世界各地移动,与之互动,创造文明,创造生活,无论你在这个三维世界中做什么。

将技术转化为一种具备原生 3D 属性的模式对于其可能的应用至关重要。即使有些服务看起来是 2D 的,但从我的角度来看,它们天生就是 3D 的,这是一个非常微妙且极其关键的点,值得深入研究。一个好的研究方法是通过讨论用例来探讨。

我们正在设计一种技术,称之为模型,这种模型可以实现空间智能。从抽象角度看,这种模型会是什么样子?你可以将其应用于哪些潜在用例?我认为有几种不同的情况。

我们设想这些空间智能模型能够随着时间的推移而发挥作用。让我感到兴奋的是「世界生成」的概念。我们已经习惯了从文本到图像生成器的工具,甚至还有从文本到视频生成器的工具。你输入一张图片或一段视频,得到一张令人惊叹的图像或一段两秒钟的惊人剪辑。但我们可以想象将其提升到 3D 世界。

未来,空间智能将帮助我们将这些体验提升到 3D 级别,不仅仅是图像或剪辑,而是一个完全模拟但又充满活力和互动的 3D 世界。这种技术可能用于游戏,但用途远不止于此,比如虚拟摄影等各种应用场景,甚至有数百万种可能的应用。

在教育领域,同样可以应用这种技术。在某种意义上,这促成了一种新的媒体形式。我们已经有能力创造虚拟互动世界,但这需要数亿美元和大量的开发时间,因此当前这种技术主要应用在视频游戏领域。因为要收回投资,游戏需要以每台 70 美元的价格卖给数百万人。

如果我们能降低创建这些虚拟互动生动 3D 世界的成本,就会涌现出许多其他应用场景。拥有个性化的 3D 体验,这种体验既好又丰富,细节与花费数亿美元制作的 AAA 视频游戏一样丰富,但又可以迎合非常小众的需求。这不仅仅是特定的产品或路线图,而是一个通过生成领域的空间智能来实现的新媒体愿景。

如果我考虑一个世界,我会考虑的不仅仅是场景生成的内容,还会包括运动和物理等方面的元素。那么,在极限情况下,这些内容是否包括在内呢?

接下来的问题是,如果我与这个世界互动,它是否具有语义?如果我打开一本书,是否有页面存在?里面有文字吗?这意味着我们是在谈论一种具有完整深度体验的世界,还是仅仅是一种静态场景?

我认为,随着时间的推移,我们会看到这项技术的发展。目前,这项技术的构建难度极大,所以静态问题相对容易一些。但在极限情况下,我们希望这个世界是完全动态的、完全可交互的,包含所有我刚才提到的元素。这就是空间智能的定义。

图片

因此,会有一个渐进的过程。我们将从较为静态的开始,但你提到的一切都在空间智能的路线图中。这就像公司的名字「World Labs」所表达的,世界是关于构建和理解世界的。这实际上有点像棒球内部的机制。我意识到,当我们告诉人们这个名字后,他们并不总是能完全理解。

在计算机视觉、重建和生成领域,我们经常区分或划分你可以做的事情。第一层是物体,比如麦克风、杯子、椅子,这些是世界上离散的事物。很多像飞飞研究的 ImageNet 风格的东西主要是关于识别世界中的物体。

然后是场景,即物体的下一级。场景是物体的组合。例如,这个录音室里有桌子、麦克风和坐在椅子上的人,这是物体的组合。但是,我们设想的世界比场景更进一步。场景可能是一些独立的事物,但我们希望打破这些界限,能够走出门外,从桌子上走下来,走到街上,看到汽车呼啸而过,看到树叶在移动,并与这些事物互动。

另一个令人兴奋的方面是新媒体技术的出现。有了这项技术,现实世界和虚拟、想象世界、增强世界或预测世界之间的界限变得模糊。现实世界是 3D 的,因此在数字世界中,你必须拥有 3D 表示,才能与现实世界融合。你不能用 2D 或 1D 去有效地与真实的 3D 世界交互。这项技术解锁了这一潜力,使得用例可以无限扩展。

Justin 提到的第一个用例是生成适用于任意数量用例的虚拟世界。你刚才提到的那个更像是增强现实的用例。就在 World Lab 成立的时候,苹果发布了 Vision Pro,他们也使用了「空间计算」这个词。我们几乎就像他们几乎偷了我们的名字。

但我们是空间智能,因此空间计算需要空间智能。

完全正确。

我们不知道它会采用什么硬件形式,可能是护目镜、眼镜、甚至隐形眼镜。无论它的形式如何,关键在于它能在真实的现实世界和你所能做的事情之间建立界面。无论是帮助你增强操作机器和修理汽车的能力,即使你不是一个训练有素的机械师,还是仅仅为了娱乐,例如玩 Pokemon Go++。

突然之间,这项技术基本上变成了 AR、VR、Mix-R 的操作系统。对于 AR 设备来说,从极限上讲,它需要做到什么呢?它必须是一个始终处于开启状态的设备,陪伴在你身边,观察世界,并理解你所看到的东西,甚至可能帮助你完成日常生活中的任务。

我对这种虚拟与物理的融合感到非常兴奋,这变得非常关键。如果你能够以完美的 3D 形式实时了解周围的事物,那么现实世界的大部分内容实际上会被贬值。现在,我们有多少种不同尺寸的屏幕用于不同用途?太多了。

手机、iPad、电脑显示器、电视、手表,这些基本上都是不同尺寸的屏幕,因为它们需要在不同的环境和位置向你呈现信息。

然而,如果你能够将虚拟内容与物理世界无缝融合,那么对所有这些屏幕的需求就会减少。理想情况下,它能够将你当时需要知道的信息与提供该信息的正确机制无缝融合。

另一个将数字虚拟世界与 3D 物理世界融合的重要案例是外星特工能够在物理世界中执行任务。如果人类使用这种 MixR 设备来执行任务,例如,我不知道如何修理汽车,但如果必须修理,我会戴上护目镜或眼镜,然后突然间我就能被引导完成这件事。

还有其他类型的代理,例如机器人、外星机器人,并不仅限于人形机器人。根据定义,它们的界面是 3D 世界,但他们的计算和大脑,实际上是数字世界的。那么,从机器人大脑到现实世界的行为和学习,是什么将两者联系起来的呢?它必须是空间智能。

你谈及了虚拟世界和增强现实,现在你还提到了纯粹的物理世界,基本上,它会被用于机器人技术。对于任何公司来说,这都是一个非常大的特权,特别是在我们进入这些不同领域的情况下。那么,您如何看待深度技术与这些特定应用领域的区别呢?

我们将自己视为一家深度科技公司,一家提供可以满足不同用例模型的平台公司。在这三者中,您认为哪一种在早期更自然,并且人们可以期望公司会倾向于使用?我认为这些设备还没有完全准备好。

实际上,我在读研究生时就拥有了我的第一个 VR 耳机,这也是这些变革性技术体验之一。你戴上它,会觉得这太疯狂了。我认为很多人第一次使用VR时都有这种体验,所以我对这个领域感到兴奋了很长时间。

我喜欢 Vision Pro,就像我熬夜订购第一批产品之一一样。但现实情况是,它还没有成为具有大众市场吸引力的平台。所以作为一家公司,我们很有可能会进入一个更成熟的市场?因此,有时候也需要考虑技术的简单性和普遍性。

例如,我们有成为一家深度科技公司的想法。我们相信,有一些潜在的基本问题需要得到很好的解决。如果能很好地解决,就可以应用于许多不同的领域。我们真的将公司的这一长远目标视为构建和实现空间智能的梦想。这需要构建很多技术。在我看来,这是一个非常困难的问题。

有时候,那些不直接从事人工智能领域的人会把它看作是一群没有区别的人才。而对于我们这些在这里待了很长时间的人来说,会意识到需要聚集许多不同类型的人才,才能在人工智能领域取得突破特别是这个领域。

我们谈到过一些数据问题,以及我在攻读博士学位期间研究的一些算法,但我们还需要做很多其他事情。你需要真正高质量、大规模的工程能力,对 3D 和 3D 世界有非常深入的理解。实际上,这与计算机图形学紧密联系,因为他们一直在从相反的方向攻克许多相同的问题。

所以,当我们考虑团队建设时,我们会寻找每个不同子领域中最顶尖的专家,这对于构建这个非常困难的东西是必需的。当我考虑如何组建 World Labs 的最佳创始团队时,它必须由一群非凡的多学科创始人组成。Justin 对我来说是一个自然而然的选择,请捂住你的耳朵,Justin,他是我最好的学生之一,也是最聪明的技术专家之一。

但我还认识另外两个人,其中一个人 Justin 甚至和他一起工作过,我对此非常渴望。一个是 Ben Mildenhall,我们谈到了他在 NERV 的开创性工作。在计算机图形学界,克里斯托弗·拉斯纳(Christoph Lassner)享有盛誉。他在高斯溅射流行的五年前,就开始研究用于3D建模的高斯溅射表示的前身,显示出非凡的远见。

当我们谈到与克里斯托弗·拉斯纳合作的潜在可能性时,Justin 激动得从椅子上跳了起来。Ben 和 Christoph 确实是业界的传奇人物。

在谈论组建其他团队的看法时,我提到,这里有大量的工作需要完成,不仅局限于人工智能或图形学,还有系统等方面的任务。因此,组建强大的团队至关重要。

到目前为止,我个人最自豪的就是这个出色的团队。在我的职业生涯中,我有幸与来自顶尖大学,尤其是斯坦福大学的最聪明的年轻人一起工作,但我们在世界实验室聚集的人才真是太了不起了,他们专注且富有热情。

我认为,这里最大的区别在于我们对空间智能的共同信仰。我们所有的多学科人才,无论是系统工程、机器学习基础设施、生成模型、数据还是图形学方面的专家,大家都相信空间智能必须在这一刻实现于我们的团队。这种精力和才华的集中让我感到谦卑,我非常喜欢这种感觉。

你提到一直受到「北极星」的指引。北极星象征着你无法真正到达的目标,因为它们在天空中,但它是一种很好的指导方式。那么,你如何知道已经完成了设定的目标?或者这是一生的事情,会无限地持续下去?

首先,有真正的北极星和虚拟的北极星。你有时可以触及虚拟的北极星。就像我之前所说,我认为我的「北极星」之一需要一百年的时间才能实现,那就是用图像讲故事。在这一点上,贾斯汀和安德烈帮助我解决了这个问题,所以我们可以找到我们的北极星。

对于我来说,当许多人和企业使用我们的模型来满足他们对空间智能的需求时,那一刻我知道我们已经达到了一个重要的里程碑,即实际的部署和影响。同时,我认为我们永远不会完全到达这一终点。

这就像宇宙是一个巨大的、不断发展的四维结构,而空间智能的广义目标则是理解它的所有深度并找出它的所有应用。因此,今天我们有一套特定的想法,但我相信,这次旅程将带我们前往现在甚至无法想象的地方。

好技术的魔力在于它开辟了更多的可能性和未知数。因此,我们会继续努力,这样可能性将会不断扩大。

图片