近日,知名华裔计算机科学家、人工智能专家李飞飞和计算机视觉领域的知名学者Justin Johnson 共同接受了a16z的专访。
在受访中,李飞飞表示,计算能力、数据理解和算法的进步为空间智能的发展奠定了基础。相对于语言模型而言,空间智能更侧重于机器对物理世界的感知、推理和交互能力,它是人工智能发展的必然趋势。
以下为对话内容(有删节):
主持人:在过去的两年里,我们目睹了消费级人工智能公司和技术的快速发展。你已经在这个领域深耕了几十年,也许可以简单回顾下你在这一路上的主要贡献和见解。
李飞飞:人工智能正处于一个非常激动人心的时刻。我个人已经在这个领域工作了 20 多年。我们已经走出了上一个人工智能的冬天,目睹了现代人工智能的诞生。我们看到了深度学习的兴起,它向我们展示了像下棋这样的可能性。但现在,我们开始看到技术的深化和早期一些可能性(如语言模型)在行业中的应用。
我们正处于一场名副其实的寒武纪生物大爆发之中。因为现在除了文本之外,你还会看到像素、视频和音频,所有这些都可能出现人工智能应用,而且是现代的应用。所以,这是一个非常激动人心的时刻。
李飞飞教授
我是从物理学的角度接触到了人工智能,因为我的本科专业是物理学。物理学是一门教会你思考大胆问题,思考世界剩余奥秘的学科。当然,在物理学中,它是原子世界、宇宙等,但不知何故,这种思维训练让我产生了一个大胆的问题,这个问题真正地吸引了我的想象力,那就是智能。因此,我在加州理工学院获得了人工智能和计算神经科学的博士学位。
我读博那会儿,公众眼里的人工智能还处于低谷期。但在我看来,它并非处于低谷,而是处于萌芽前的蛰伏期,它充满了生机。机器学习、统计建模那时真的变得越来越强大。我属于机器学习和人工智能的原住民一代,机器学习是深度学习的先驱。我们当时尝试了各种各样的模型。
但在我博士生涯结束和助理教授生涯开始之际,有一件事出现了。人工智能中有一些被忽视的元素,它们在数学上对推动泛化至关重要。但整个领域都没有朝着这个方向思考,而它就是数据。因为我们当时考虑的是贝叶斯模型的复杂性,或者诸如核方法之类的东西。但我的学生和我的实验室可能比大多数人都更早意识到,最根本的是,如果你让数据驱动模型,你就能释放出我们以前从未见过的力量。这正是我们对 ImageNet 进行疯狂押注的原因。忘了我们现在看到的任何规模,也就是数千个数据点。当时,NLP 社区有他们自己的数据集。我记得 UCR,Irvine 数据集或 NLP 中的一些数据集,跟 ImageNet 比起来都很小。计算机视觉社区也有自己的数据集,但只有数千或数万的量级。我们当时就想,我们需要把它推向互联网。幸运的是,当时也正值互联网的腾飞时期。所以我们乘上了这股浪潮。
主持人:这些时代是我们经常谈论的。比如,ImageNet 显然创造了或者至少说让计算机视觉流行起来并可行的时代。在生成式人工智能浪潮中,我们谈论两种核心的解锁:一种是来自 Transformers 论文的 Transformer,也就是注意力机制。我们谈论 Stable Diffusion。这种想法合理吗?也就是说,这两个算法上的解锁都来自学术界或谷歌。而其他一切都源于此。难道说这个发展过程其实更加刻意?或者,还有其他一些我们不太谈论的重大解锁,将我们带到了今天?
Justin:我认为最大的解锁是算力。我知道人工智能的故事通常是算力的故事,但无论人们谈论了多少,我认为人们仍然低估了它。过去十年中,我们看到算力的增长是惊人的。第一篇真正被认为是计算机视觉深度学习突破性时刻的论文是 AlexNet,它是一篇 2012 年的论文,文中一个深度神经网络在 ImageNet 挑战赛中表现非常出色,击败了 Fei-Fei 一直在研究的所有其他算法,也就是她在研究生阶段研究的那种类型的算法。
AlexNet 是一个拥有 6000 万参数的深度神经网络,它在两块 GTX 580 上训练了 6 天,这是当时最顶级的消费级显卡,于2010 年发布。我最近看了一些数据,只是为了让大家对这些数字有个概念。英伟达最新最强大的显卡是 GB200。你俩猜猜看,GTX 580 和 GB200 之间的原始算力差距有多大?差了几千倍。我算了算一个训练任务,用一块 GB200 来跑的话,在两块 GTX 580 上是 6 天的训练量,只需要不到 5 分钟。
Justin Johnson
李飞飞:Justin 说得非常好。2012年关于 ImageNet 挑战赛的 AlexNet 论文实际上是一个非常经典的模型。它就是卷积神经网络模型。它发表于 20 世纪 80 年代,是该领域的第一篇论文。我记得我研究生时学过它。它或多或少也有六七层。AlexNet 和 ConvNet 之间唯一的区别是什么?区别在于 两块 GPU以及海量数据。
主持人:这就是我想说的,现在大多数人都熟悉所谓的“惨痛教训”。这个惨痛的教训是:如果你要设计一个算法,不要耍小聪明。
Justin: 是的。
主持人:只要确保你能利用现有的算力,因为算力总会提升。还有另一种说法在我看来也同样可信:新的数据源解锁了深度学习。ImageNet 就是一个很好的例子,自注意力机制在 Transformer 中表现出色,但他们也会说,这是一种可以利用人类数据标注的方式,因为是人类将结构赋予了句子。如果你看看 CLIP,他们会说,我们正在利用互联网让人类使用 alt 标签来标注图像。所以这是一个关于数据的故事。这不是一个关于算力的故事。那么答案是两者兼而有之,还是说其中一个比另一个更重要?
Justin:我认为两者兼而有之,但你提出了另一个非常好的观点。所以在我看来,算法方面实际上有两个截然不同的时代。ImageNet 时代其实是监督学习的时代。所以在监督学习的时代,你有很多数据,但你不知道如何利用数据本身。像 ImageNet 和那个时期其他数据集的预期是,我们会得到很多图像,但我们需要人来标记每一张图像。我们用来训练的所有训练数据,都需要一个人类标注员看过并对该图像进行标注。而算法上的重大解锁,是我们知道了如何利用不需要人工标注的数据进行训练。
主持人:作为一个没有人工智能背景的门外汉,在我看来,如果你用人类数据进行训练,比如人类已经对数据进行了标注,那它就不是隐式的。
李飞飞:从哲学上讲,这是一个非常重要的问题,但这在语言中比在像素中更为真实。
主持人:对。但我确实认为这是一个重要的区别,因为 CLIP 确实是人工标注的。我认为意图是人类已经弄清楚了事物之间的关系,然后,你再学习它们。所以它是人工标注的,只是比显式标注更加隐式。
Justin:它仍然是人工标注的,区别在于,在这个监督学习时代,我们的学习任务受到了更多限制。所以你必须想出我们想要发现的概念本体。如果你正在做ImageNet,就像Justin和你的学生当时花了很多时间思考ImageNet挑战赛应该包含哪一千个类别。那个时候的其他数据集,比如用于目标检测的COCO数据集,他们非常认真地思考了我们应该放入其中的80个类别。
主持人:我们来谈谈生成式人工智能。在我读博的时候,在你来之前,我学习了吴恩达的机器学习,然后我又学习了 Daphne Koller 的贝叶斯,对我来说非常复杂。很多都只是预测模型。然后我记得你解锁的关于视觉的全部内容,但生成式的东西是在过去四年才出现的,这对我来说是非常不同的。你不再是识别物体,不再是预测什么,而是生成什么。所以也许可以带我们了解让我们走到这一步的关键解锁点,以及为什么它与众不同。我们是否应该用不同的方式看待它?它是连续体的一部分吗?
李飞飞:在我读研的时候,生成模型就已经存在了。我们想做生成,即使是字母和数字,我们也试图做一些。你知道,Geoffrey Hinton 发表过关于生成模型的论文。我们当时在思考如何生成。
事实上,如果你从概率分布的角度思考,你可以在数学上进行生成。只是我们生成的任何东西都不会让人印象深刻。所以在数学上、理论上,生成的概念是存在的,但没有一个奏效。Justin 说他被深度学习迷住了,所以他来到了我的实验室。Justin 整个博士生涯,几乎是这个领域发展轨迹的一个缩影。他一开始做的是数据方面的工作。我强迫他做的,他不喜欢。
Justin: 所以…… 回想起来,我学到了很多真正有用的东西。
李飞飞:我很高兴你现在这么说。所以我们让 Justin 转向了深度学习,当时的核心问题是用图像生成文字。
Justin:我认为在这个轨迹上有三个独立的阶段。第一个阶段是匹配图像和文字。比如,我们有一张图像,我们有文字,我们能说它们有多大程度的关联吗?所以我的第一篇博士论文和有史以来的第一篇学术论文,是用场景图进行图像检索。
李飞飞:然后我们进入了生成阶段,输入像素,生成文字。Justin 和 Andre 真的在这方面下了功夫。但这仍然是一种非常有损的方式来生成和从像素世界中获取信息。然后在中间,Justin 离开去做了一项非常著名的工作。这是第一次有人把它做成了实时。
Justin:是的。当时的情况是,Leon Gatys 在 2015 年发表了一篇关于艺术风格迁移的论文,叫做《一种神经网络算法的艺术风格》。然后这篇论文发表了,他们展示了这些现实世界的照片,他们把这些照片转换成了梵高的风格。我们现在已经习惯于在 2024 年看到这样的东西了。但这发生在 2015 年。所以这篇论文有一天突然出现在 arXiv 上,让我大吃一惊。我就像得了生成式人工智能的脑虫一样,在 2015 年就深深地印在了我的脑海里,它对我产生了影响。我想:我的天啊,我需要理解这个算法。我需要玩一玩。我需要把自己的图像也变成梵高的风格。
然后我就去读了这篇论文。然后在一个漫长的周末里,我重新实现了这个东西,并让它运行起来。这实际上是一个非常简单的算法。所以我的实现只有 300 行 Lua 代码。那是 PyTorch 之前的时代,我们当时用的是 Lua Torch。它是一个非常简单的算法,但是很慢。所以它是一个优化的、基于优化的东西,你想生成的每一张图像,你需要为你要生成的每一张图像运行这个优化循环,运行这个梯度下降循环。生成的图像很漂亮,但我只是想让它更快。
李飞飞: Justin 做到了。我认为这是你第一次尝到学术成果对工业界产生影响的滋味。
Justin: 当时很多人都看到了这种艺术风格迁移的东西。我和其他几个人在同一时间想出了不同的方法来加速它,但我的方法是获得了很多关注的方法。
李飞飞: 我为 Justin 感到非常自豪。但还有一件事让我对 Justin 与生成式人工智能的联系感到非常自豪,在全世界都了解生成式人工智能之前,Justin 在博士期间的最后一件作品是我逼你做的,就是输入语言,输出一整张图片。这是最早的生成式人工智能作品之一。它使用的是 GAN,当时 GAN 很难用。但问题是我们还没有准备好使用一段自然的语言。所以 Justin必须输入一个场景图语言结构。比如,羊、草、天空,用图的方式表示。它实际上是我们的一张照片,然后他和另一个非常优秀的硕士生 Grim,他们让 GAN 运行起来了。你可以看到,从数据到匹配,到风格迁移,到生成图像,这是否是一个巨大的变化?对我们这样的人来说,它已经在连续地发生。但对世界来说,结果更加明显。
主持人: 我读了你的书,对于那些正在收听的人来说,这是一本非常棒的书,我强烈推荐你读一读。长期以来,我想和你说,Justin,你的很多研究方向都是关于空间的东西、像素的东西和智能的东西。现在你在做 World Labs,它是关于空间智能的。所以也许可以谈谈,这对你来说是漫长旅程的一部分吗?你为什么决定现在做这件事?是技术上的突破?还是个人的突破?让我们从人工智能研究的环境转向 World Labs。
李飞飞: 当然可以。对我来说,这既是个人兴趣,也是学术追求。你提到了我的书,我的整个学术旅程实际上就是追寻北极星的过程,而且我相信这些北极星对于我们领域的进步至关重要。我记得研究生毕业后,我以为我的北极星是讲述图像的故事,因为对我来说,这是视觉智能中非常重要的一部分,也是你所说的人工智能或通用人工智能的一部分。
但当Justin和Andre实现了这一点时,我当时就想:天哪,那可是我毕生追求的目标,接下来我该做什么呢?所以这一切来得太快了,我原以为要花上100年才能实现。但视觉智能是我的热情所在,因为我确信,对于每一个智能体,无论是人类、机器人还是其他形式的生命,都知道如何观察世界、推理世界、与世界互动,无论是在导航、操控还是创造事物,都可以在此基础上建立文明。视觉空间智能是如此令人着迷,如此重要,它和语言一样基础,在某些方面可能比语言更古老、更基础。
因此,World Labs以解锁空间智能为目标,对我来说是非常自然的事情。对我来说,现在正是做这件事的最佳时机,就像Justin所说的那样,我们已经具备了这些要素,我们拥有强大的计算能力,我们对数据的理解更加深入,与过去相比,我们对图像的理解也更加深入。我们还在算法方面取得了一些进展,包括World Lab的联合创始人,如Ben Mildenhall和Christoph Lassner,他们处于神经辐射场技术的 cutting edge。我们正处在一个合适的时机,可以真正放手一搏,集中精力去解锁它。
主持人:你们创办了World Labs这家公司,空间智能是你们对要解决的问题的总体描述,你们能否更清晰地描述一下它的含义?
Justin:空间智能是指机器在三维空间和时间中感知、推理和行动的能力,理解物体和事件在三维空间和时间中的位置,以及世界中的交互如何影响这些三维位置,以及在空间和时间上的位置,感知、推理、生成、交互,真正将机器从大型机或数据中心中解放出来,让它进入现实世界,并理解这个丰富多彩的三维、四维世界。
主持人:明确一点说,我们是在谈论现实世界,还是仅仅是在谈论一个抽象的世界概念?
Justin: 我认为两者都可以,这包含了我们的长期愿景。即使你是在生成世界,即使你是在生成内容,在三维空间中进行定位也会有很多好处。或者,如果你要识别现实世界,能够将三维理解融入现实世界也是其中的一部分。
主持人:我想对所有正在收听的听众说,另外两位联合创始人Ben Melvin Hall和Christoph Lassner,都是该领域的绝对传奇人物。这四位决定现在创办这家公司。我想深入了解一下,为什么现在是合适的时机?
Justin:对我来说,这也是长期发展的一部分。但实际上,在我获得博士学位后,当我真的想发展成为一名独立研究人员时,无论是在我之后的职业生涯中,我都在思考,人工智能和计算机视觉领域的大问题是什么?当时我的结论是:过去十年主要是理解现有数据,但未来十年将是理解新数据。说到这里,如果我们想想看,现有的数据都是已经存在于网络上的图像和视频。
为什么说未来十年要理解新数据?比如,人们拥有智能手机,智能手机上都配备了摄像头,这些摄像头拥有新的传感器,而且这些摄像头都位于三维世界中。我们不再只是从互联网上获取一堆像素,却对其一无所知,然后试图判断它是猫还是狗。
我们希望将图像视为通往物理世界的通用传感器,以及如何利用它来理解物理空间或生成空间中的三维和四维结构。所以我做了一个很大的转变,在博士后阶段转向了三维计算机视觉领域,与我当时在FAIR的同事一起预测物体的三维形状。后来,我被通过二维图像学习三维结构的想法深深吸引。因为我们经常谈论数据,而获取三维数据本身就很难。但因为这里存在着非常强的数学联系,我们的二维图像是三维世界的投影,我们可以利用这里很多数学结构。所以即使你有很多二维数据,也有很多人做了很多了不起的工作,研究如何从大量的二维观察中反推出世界的三维结构。然后在2020年,你问到突破性时刻,我们的联合创始人Ben Mildenhall当时发表了一篇名为“神经辐射场”的论文,这是一个非常简单、非常清晰地从二维观察中反推三维结构的方法,这为整个三维计算机视觉领域点燃了一把火。
我认为这里还有一个方面,可能领域外的人不太了解。那也是一个大型语言模型开始兴起的时代,所以很多关于语言建模的东西实际上已经在学术界发展起来了。甚至在我读博期间,2014年我就和Andrej Karpathy一起做了一些早期的语言建模工作。
李飞飞:LSTM。
Justin:是的,LSTM、RNN、GRU,这些都是transformer出现之前的技术。
但后来,大概在 GPT-2 出现的时候,学术界就无法再做这类模型了,因为它们需要的资源太多。但 Ben 提出的 NERF 方法有一个非常有趣的地方,就是你可以在一个 GPU 上用一两个小时就能完成训练。所以我认为在那个时候,出现了一种动态,那就是很多学术研究人员最终都把注意力集中在这些问题上,因为这里面有核心的算法需要解决。而且因为你实际上不需要大量的计算就能做很多事情,并且由于这些动态,你可以在单个 GPU 上获得最先进的结果。有很多研究,很多学术研究人员都在思考,在算法层面上,我们有哪些核心方法可以推进这个领域的发展。
后来我和 Fei-fei 聊了聊,我意识到我们实际上…
主持人:所以在像素空间中有重建。你重建一个真实的场景,如果你没有看到这个场景,你就使用生成技术。这些东西其实非常相似。在整个对话过程中,你一直在谈论语言和像素。所以也许现在是谈谈空间智能和你正在做的事情与语言方法相比如何的好时机。当然。语言方法现在非常流行。比如它们是互补的吗?它们是正交的吗?
Justin:我认为它们是互补的。
主持人:我在这里不是故意引导你。也许只是对比一下它们。就像每个人都说,我知道 OpenAI和、GPT和多模态模型,而你说的很多东西都像是说它们有像素、有语言,这难道不能满足我们的需求吗?
Justin:要做到这一点,你需要稍微打开下黑盒子,看看这些系统是如何在底层运作的。对于语言模型和我们现在看到的多模态语言模型,它们底层的表示是一种一维表示。我们谈论上下文长度,我们谈论 Transformer,我们谈论序列,注意力,从根本上说,它们对世界的表示是一维的。所以这些东西基本上是在一个一维的标记序列上运作的。
所以当你谈论语言的时候,这是一种非常自然的表示方式,因为书面文字就是一个由离散字母组成的一维序列。所以这种底层的表示方式是导致大型语言模型出现的原因。而我们现在看到的多模态大型语言模型,你最终会把其他模态硬塞进这种一维标记序列的底层表示中。现在,当我们转向空间智能时,它有点反其道而行之,我们认为世界的三维性质应该成为表征的核心。
在算法层面上,这为我们打开了以不同方式处理数据、从中获得不同类型的输出以及解决略有不同的问题的大门。所以即使在粗略的层面上,你看看外面,你会说,多模态大型语言模型也可以看图像。是的,它们可以,但我认为,它们的方法的核心并没有那种基本的三维表示。
李飞飞:我完全同意 Justin 的观点。我认为谈论一维和根本上的三维表示是最核心的区别之一。另一个是从哲学层面来说,语言根本就是一种纯粹生成的信号。世界上没有语言。你不会走到大自然中,天空中就写着文字给你看。无论你输入什么数据,你几乎都可以以足够的概括性将相同的数据反刍出来。这就是语言到语言,但 3D 世界不是这样的。外面的 3D 世界遵循物理定律,由于材料和许多其他因素,它有自己的结构。从根本上支持这一点。提取出信息,并能够表示它、生成它,从根本上来说,是一个完全不同的问题。我们会借鉴语言和大型语言模型中类似的或有用的想法,但对我来说,这在本质上是一个不同的哲学问题。
主持人: 所以一维的语言可能是对物理世界的糟糕表征,因为它是由人类生成的,而且可能有损失。还有另一种生成式 AI 模型,那就是像素。这些是 2D 图像和 2D 视频。就像有人会说,如果你看一段视频,它看起来,你知道,你可以看到 3D 的东西,因为你可以平移相机或其他什么东西。那么,空间智能与 2D 有什么不同呢?
Justin:区分两个概念是很有用的:一是底层表示,二是面向用户的可供性(affordance)。这两种概念有时会让人混淆,因为从根本上来说,我们看到的是二维的。我们视网膜是身体中的二维结构,而且我们有两个。所以从根本上来说,我们的视觉系统感知的是二维图像。但问题是,根据你使用的表示方式,可能会有不同的可供性,有些更自然,有些则不那么自然。因此,即使你最终看到的是二维图像或二维视频,你的大脑也会将其视为三维世界的投影。所以你可能想要做一些事情,比如移动物体,移动相机。原则上,你可能可以使用纯粹的二维表示和模型来做到这些,但这与你要求模型完成的任务并不匹配。就像对动态三维世界的二维投影进行建模,这可能可以实现。但从这个角度来说,这不是一个问题。因此,通过将三维表示放入模型的核心,模型所处理的表示类型与你希望该模型完成的任务类型之间就会有更好的匹配。所以我们认为,通过在底层加入更多三维表示,将为用户提供更好的可供性。
李飞飞:这也回到了北极星计划的初衷。对我来说,为什么是空间智能?为什么不是平面像素智能?因为我认为智能的弧线必须指向Justin所说的可供性。如果你观察进化过程,就会发现智能的弧线最终使动物和人类,特别是作为智慧动物的人类,能够在世界上移动,与世界互动,创造文明,创造生活,创造一块三明治,无论你在这个三维世界中做什么。将这一点转化为技术,这种原生的三维性对于释放可能的应用洪流至关重要,即使其中一些应用的表现形式是二维的。但对我来说,它本质上是三维的。
主持人: 这是一个非常微妙且极其关键的点,值得深入探讨。一个好的方法是谈论用例。为了明确一下,我们正在谈论的是生成一种可以实现空间智能的技术,我们称之为模型。那么,抽象地说,它可能是什么样子呢?更具体地说,你认为这种技术有哪些潜在的用例?
Justin:随着时间的推移,我们可以想象这些空间智能模型能够做几件不同的事情。其中,我非常兴奋的一点是世界生成。我们都习惯了文本到图像生成器,或者开始看到文本到视频生成器,你输入一张图像,一段视频,就会输出一张令人惊叹的图像或一段令人惊叹的两秒钟片段。但我认为你可以想象将这种技术提升到一个新的水平,输出三维世界。所以我们可以想象,空间智能在未来可以帮助我们做的一件事是将这些体验升级到三维,我们得到的不仅仅是一张图像或一段视频,而是一个完整的、充满活力和交互性的三维世界。
李飞飞: 用于游戏?
Justin: 也许用于游戏,也许用于虚拟摄影,你能想到的场景都可以。即使你做到了这一点,也会有无数的应用。
李飞飞:用于教育。
Justin: 是的,我的意思是,从某种意义上说,这开启了一种新的媒体形式,因为我们已经具备了创建虚拟交互式世界的能力,但这需要花费数亿美元和大量的开发时间。因此,人们推动这项技术发展的领域是电子游戏。因为如果我们有能力创造出细节惊人、虚拟互动、给你带来惊人体验的虚拟世界,但由于这样做需要耗费大量人力,那么以目前的形式,这项技术唯一经济可行的用途就是游戏,这些游戏可以以每款70美元的价格卖给数百万甚至上亿人,以收回投资。如果我们有能力创造出同样虚拟互动、充满活力的三维世界,你就会看到它的许多其他应用,对吧?因为如果你降低了制作这类内容的成本,那么人们就会把它用于其他事情。如果你可以拥有一种互动式的,就像一种个性化的三维体验,它和那些花费数亿美元制作的3A级电子游戏一样出色、丰富、细致,但它可以满足,比如,这个非常小众的东西,也许只有几个人想要那个特定的东西。这不是一个特定的产品或路线图,但这是空间智能在生成领域所带来的新型媒体的愿景。
主持人:当我想到一个世界时,我想到的不仅仅是场景生成。我还想到了运动和物理之类的东西。所以,从极限的角度来看,这些也包括在内吗?第二个问题是,如果我在与它互动,它有语义吗?我的意思是,比如,如果我打开一本书,里面有页面和文字吗?它们有意义吗?我们讨论的是一种全面的深度体验,还是一种……
Justin: 静态场景。我认为这项技术会随着时间的推移而进步。这些东西真的很难构建。所以我认为静态问题要容易一些。但从极限的角度来看,我认为我们希望它是完全动态的,完全可交互的,就像你刚才说的那样。
李飞飞:这就是空间智能的定义,这将是一个渐进的过程。我们将从更静态的东西开始。但你所说的所有内容都在空间智能的路线图上。
Justin:这有点像公司本身的名字,World Labs。World Labs,意味着构建和理解“世界”。说起来,这有点像是业内人才懂的梗。在我们把名字告诉别人之后,我才意识到,他们并不总是能理解。因为在计算机视觉、重建和生成领域,我们经常会对你能做的事情进行区分和界定。我认为,第一级是物体。比如,麦克风、杯子、椅子。这些都是世界上独立的事物;而Justin研究的很多 ImageNet 风格的东西,都是关于识别世界上的物体。
在物体之上的下一级,我认为是场景。场景是物体的组合。就像现在,我们身处这个录音室里,里面有桌子、麦克风、人和椅子。它是物体的某种组合。但我们设想的世界是超越场景的。场景可能只是单个的东西,而我们想打破边界,走出门外,比如从桌子旁站起来,走出房门,沿着街道走下去,看到汽车呼啸而过。看到树上的叶子在摇动,并且能够与这些东西互动。
李飞飞:另一个令人兴奋的事情是“新媒体”这个词。有了这项技术,现实世界和虚拟想象世界、增强世界或预测世界之间的界限都变得模糊了。现实世界是三维的。所以,在数字世界中,你必须有一个三维的表征,才能与现实世界融合。你不能用二维的,也不能用一维的,来与现实的三维世界进行有效的交互。有了这项技术,它就解锁了这一切。因此,用例可能是无限的。
主持人:Justin 谈到的第一个用例,就是为任何数量的用例生成一个虚拟世界。而你刚才提到的更像是增强现实?
李飞飞:是的。就在 WorldLab 成立的时候,苹果公司发布了 Vision Pro,他们使用了“空间计算”一词。他们差点就抢走了我们的名字。但我们是“空间智能”,空间计算需要空间智能。我们不知道我们会使用什么硬件,它可能是护目镜、眼镜、浴袍、隐形眼镜,但是真实世界和你可以在上面做什么之间的接口,无论是帮助你增强修理机器的能力,还是修理你的汽车,即使你不是一个训练有素的机械师,或者只是为了娱乐而进入一个增强版的 Pokemon Go 游戏。突然之间,这项技术将成为 AR、VR、MR 的操作系统。
Justin:从极限的角度来说,一个 AR 设备需要做什么?它是一个始终开启的东西,它与你同在,它在观察着这个世界。所以它需要理解你所看到的东西,也许还能在你的日常生活中帮助你完成任务。但我真正兴奋的是虚拟和现实之间的融合,这变得非常关键。如果你有能力实时地、完美地以三维方式理解你周围的环境,那么它实际上也开始淘汰现实世界中的很大一部分。就像现在,我们每个人为了不同的用例拥有多少不同尺寸的屏幕?
你有你的手机,你有你的 iPad,你有你的电脑显示器,你有你的电视,还有你的手表。这些基本上都是不同的侧屏,因为它们需要在不同的环境和位置向你呈现信息。但如果你有能力将虚拟内容与现实世界无缝融合,那就没必要使用所有这些屏幕了。在理想情况下,它会将你需要知道的信息与正确的呈现机制无缝地融合在一起。
李飞飞:能够将数字虚拟世界与三维物理世界融合的另一个巨大用例是,让“异类代理”(alien agent)能够在物理世界中做事情。如果人类使用这种 MR 设备来做事,就像我说的,我不知道如何修理汽车,但如果我必须这样做,我戴上这个护目镜或眼镜,突然间我就被引导着去做了。但还有其他类型的代理,比如机器人,“异类”机器人,而不仅仅是人形机器人。根据定义,它们的界面是三维世界。但根据定义,它们的计算,它们的大脑,是数字世界。那么,是什么将机器人大脑的学习和行为与现实世界的大脑连接起来的呢?它必须是空间智能。
主持人:你谈到了虚拟世界,谈到了更像是增强现实的东西,现在你又谈到了纯粹的物理世界,基本上就是用于机器人的世界。对于任何一家公司来说,这都是一个非常大的挑战,特别是当你进入每一个不同的领域的时候。那么,你是如何看待深度技术与这些特定应用领域之间的关系的呢?
李飞飞:我们认为自己是一家深度科技公司,是一家平台公司,提供可以服务于不同用例的模型。
主持人:在这三个领域中,你认为哪一个在早期阶段更自然,更容易让人们期待公司会倾向于哪个领域?
李飞飞:可以说,这些设备还没有完全准备好……
Justin:事实上,我在研究生院就有了我的第一个 VR 头戴设备。就像那些革命性的科技体验一样,你戴上它,你会想:我的天哪,这太疯狂了。我认为很多人在第一次使用 VR 时都会有这种体验。所以我对这个领域一直很兴奋。我喜欢 Vision Pro。我喜欢它发布的第一天就熬夜订购了一个。但我认为现实情况是,它还没有成为一个面向大众市场的平台。
李飞飞:作为一家公司,我们很可能会进入一个更成熟的市场。
Justin:我认为有时候可以做到简单和通用。比如,我们有成为一家深度科技公司的理念。我们相信,有一些需要很好解决的潜在基础问题。如果真的解决好了,就可以应用到很多不同的领域。我们真的将公司的长期发展视为构建和实现空间智能的伟大梦想。所以,在我看来,这需要构建很多技术。我认为这是一个非常难的问题。
有时候,对于那些没有直接进入人工智能领域的人来说,他们只是把人工智能看作是一堆没有区别的人才。对于我们这些在这个领域时间比较长的人来说,我们意识到需要很多不同类型的人才聚集在一起,才能在人工智能领域,特别是这个领域有所建树。我们稍微谈了谈数据问题。我们也简单谈了谈我在博士期间研究的一些算法。但是,我们还需要做很多其他的事情。你需要真正高质量、大规模的工程。你需要真正深入地了解物理学。你需要真正深入地了解三维世界。实际上与计算机图形学有很多联系,因为他们一直在从相反的方向解决很多相同的问题。所以,当我们考虑团队组建时,我们会考虑如何找到世界上绝对顶尖的专家,在每一个不同的子领域找到世界上最优秀的人才,来构建这个真正困难的东西。
李飞飞:当我思考如何为 World Labs 组建最好的创始团队时,首先想到的是一群杰出的多学科创始团队。当然,Justin 对我来说是不二人选。Justin 是我最好的学生之一,也是最聪明的技术专家之一,这一点从他过去几年的经历就可以看出。但还有另外两个人,我久仰大名,其中一个 Justin 甚至还和他一起工作过,我一直对他垂涎三尺。其中一位是 Ben Mildenhall。我们谈到了他在 NeRF 方面的开创性工作。另外一位是 Christoph Lassner,他在计算机图形学领域享有盛誉。特别是他很有远见地在一个名为 Pregame 的项目上工作。他是五年前高斯散点图兴起之前,高斯散点图表征用于三维建模的先驱。当我们谈到与 Christoph Lassner 合作的潜在可能性时,Justin 兴奋地跳了起来。
主持人:Ben 和 Christoph 都是传奇人物。也许可以简单谈谈你是如何考虑其他团队成员的组建的。这里有很多东西需要构建,有很多工作要做,不仅仅是在人工智能或图形学方面,还包括系统等等。
李飞飞:我们组建了一支强大的团队,这是迄今为止我个人最自豪的事情。我有幸与我职业生涯中最聪明的年轻人一起工作,他们来自顶尖大学,在斯坦福大学担任教授。但我们在 World Labs 汇聚的人才真是太出色了。我从未见过如此集中的天才。
我认为,这里最大的差异化因素是我们都相信空间智能。所有的多学科人才,无论是系统工程、机器学习、基础设施,还是生成式建模、数据、图形学,我们所有人,无论是我们个人的研究旅程、技术旅程,甚至是个人爱好,我们都相信空间智能必须在此时此刻,由我们这群人来实现。这也是我们真正找到创始团队的方式。这种能量和人才的集中对我来说真的很震撼。我很喜欢。
主持人:我知道你一直以北极星为指导。我们可能无法到达北极星上,因为它们在天上,但它是一个很好的指路标。你怎么知道你什么时候完成了你设定的目标呢?或者说,这是一件会无限期地持续下去的事情吗?
李飞飞:首先,有真实的北极星和虚拟的北极星。有时候,你可以到达虚拟的北极星。
主持人:言之有理,在世界模型中就有虚拟的北极星。
李飞飞:就像我说的,我认为我们的一个需要 100 年才能实现的北极星目标是“图像叙事”。而 Justin 和 Andre,在我看来,他们为我解决了这个问题。所以我们能够到达我们的北极星。但对我来说,当有那么多人和企业在使用我们的模型,来满足他们在空间智能方面的需求时,就是我们已经达到了一个重要里程碑的时刻。现在到了实际部署落地的时刻了。
Justin:我认为我们永远也无法到达那里。这是一件非常基础的事情,就像宇宙是一个巨大的、不断演化的四维结构,而广义的空间智能就是理解它的所有深度,并找出它的所有应用。所以我认为我们今天脑子里有一套特定的想法,但我认为这段旅程将把我们带到我们现在无法想象的地方。
李飞飞:好的技术的魅力在于,技术打开了更多可能性和未知领域。所以,我们将不断推动,而可能性也将不断扩大。
人物简介
李飞飞
Justin Johnson
* Reference: https://www./watch?v=vIXfYFB7aBI
译文:瓜哥AI新知