Yann LeCun：今天的AI比猫还笨，自曝早已放弃大模型

在AI圈里，图灵奖得主Yann Lecun是一个典型的异类。

当众多技术专家坚信，沿着当前的技术路线，AGI的实现只是时间问题时，Yann Lecun却一再提出异议。

在与同行的激烈辩论中，他不止一次表示，当前主流的技术路径无法引领我们走向AGI，甚至现在AI的水平还不如一只猫。

而图灵奖得主、Meta首席AI科学家、纽约大学教授等等，这些耀眼的头衔以及沉甸甸的一线实践经验，却也让我们谁也无法忽视这位AI专家的见解。

那么，Yann LeCun对于AI的未来究竟有何看法呢？在最近一次公开演讲中，他也再次详细阐述了自己的观点：仅仅依靠文本训练，AI永远无法达到接近人类水平的智能。

部分观点如下：

1. 未来，人们将普遍佩戴智能眼镜或其他类型的智能设备，这些设备将内置助手系统，形成个人的智能虚拟团队，以提高个人的创造性和效率。

2. 智能系统的目的不是为了取代人类，而是为了增强人类的智力，使人们能够更高效地工作。

3. 即使是宠物猫，其大脑中的模型也比任何AI系统能够构建的模型复杂。

4. FAIR基本上不再专注于语言模型，而是朝向下一代AI系统的长期目标迈进。

5. 仅仅通过训练文本数据，AI系统无法达到接近人类水平的智力。

6. Yann Lecun建议放弃生成模型、概率模型、对比学习和强化学习，转而采用JEPA架构和基于能量的模型，认为这些方法更有可能推动AI的发展。

7. 虽然机器最终会超越人类智力，但它们将受到控制，因为它们是目标驱动的。

有趣的是，演讲开始前还发生了一段小插曲。

主持人在介绍LeCun时，称他为Facebook AI研究院（FAIR）的首席AI科学家。

对此，LeCun在演讲开始前澄清，FAIR中的“F”已经不再代表Facebook，而是“基础”（Fundamental）的意思。

以下演讲原文由APPSO编译，有删减。

最后附上原视频链接： https://www.youtube.com/watch?v=4DsCtgtQlZU

AI对世界的了解不如你的猫

好的，我将谈谈人类水平级别的AI，以及说我们如何实现它，以及我们为何又不会实现它。

首先，我们确实需要人类水平的AI。

因为未来，有一个是我们大多数人将佩戴智能眼镜或其他类型的设备。我们将与这些设备进行对话，而这些系统将承载助手，可能不止一个，可能是一整套助手。

这将导致我们每个人基本上都有一支智能虚拟团队在为我们工作。

所以，人人都将成为“老板”，只是这些“员工”不是真正的人类。我们需要构建这样的系统，基本上是为了增强人类的智力，使人们更具创造性和更高效。

但为此，我们需要机器能够理解世界，能够记住事物，具备直觉和常识，能够推理和计划，达到与人类相同的水平。

尽管你可能听到过一些支持者说，目前的AI系统并不具备这些能力。所以我们需要花时间学习如何建模世界，拥有关于世界运作的心理模型。

事实上，每种动物都有这样的模型。你的猫一定有一个比任何AI系统所能构建或设计的模型都要复杂的模型。

我们需要的系统应该具有持久记忆的系统，而当前的语言模型（LLM）并没有，能够规划复杂行动序列的系统，而今天的系统无法做到，并且这个系统应该是可控和安全的。

因此，我将提出一个架构，称为目标驱动的AI。我大约两年前写了一篇关于这个的愿景论文，并发布了这篇论文。FAIR的很多人正在努力实现这个计划。

FAIR过去研究过更多应用项目，但Meta在一年半前创建了一个名为生成式AI（Gen AI）的产品部门，专注于AI产品。

他们进行应用研发，因此现在FAIR已经被重新引导，朝向下一代AI系统的长期目标。我们基本上不再专注于语言模型。

包括大型语言模型（LLM）在内的AI成功，尤其是过去5、6年中取得的许多其他系统的成功，依赖于一系列技术，当然，包括自监督学习。

自监督学习的核心在于训练一个系统，不是针对任何特定任务，而是尽量以良好的方式表示输入数据。实现这一点的一种方法是通过损坏再重建恢复。

因此，你可以取一段文本，通过去掉一些单词或改变其他单词来破坏它。这个过程可以用于文本、DNA序列、蛋白质或其他任何内容，甚至在某种程度上也可以用于图像。然后你训练一个庞大的神经网络来重建完整的输入，即未被破坏的版本。

这是一个生成模型，因为它试图重建原始信号。

所以，红色框就像一个代价函数，对吧？它计算输入Y和重建后的输出y之间的距离，而这就是学习过程中要最小化的参数。在这个过程中，系统学习到了输入的内部表示，可以用于各种后续任务。

当然，这可以用于预测文本中的单词，这就是自回归预测（autoregressive prediction）所做的事情。

语言模型是这一点的特例，其中架构的设计方式是为了预测一个项、一个token或一个单词时，只能查看其左侧的其他token。

它不能查看未来。如果你正确训练一个系统，给它展示文本，并要求它预测文本中的下一个单词或下一个token，那么你可以使用该系统来预测下一个单词。然后你将那个下一个单词加入输入中，再预测第二个单词，并将其加入输入中，预测第三个单词。

这就是自回归预测（autoregressive prediction）。

这是LLMs所做的事情，这并不是一个新概念，自香农（Shannon）时代以来就存在了，可以追溯到50年代，这已经很久了，但变化在于我们现在拥有那些庞大的神经网络架构，可以在大量数据上进行训练，并且看起来会从中涌现出一些特性。

但这种自回归预测有一些主要的局限性，在通常意义上这里并没有真正的推理存在。

还有另一个局限性是，这仅适用于以离散对象、符号、token、单词等形式出现的数据，基本上是可以离散化的东西。

我们在达到人类水平智力方面仍然缺少一些重要的东西。

我在这里并不一定是在谈论人类水平的智力，但即使是你的猫或狗也能完成一些当前AI系统无法企及的惊人壮举。

任何10岁的小孩都可以一次性学会清理餐桌并填满洗碗机，对吧？根本不需要练习之类的，对吧？

17岁的人学会开车大约需要20小时的练习。

我们仍然没有L5级自动驾驶汽车，当然也没有能够清理餐桌和填满洗碗机的家用机器人。

仅仅通过训练文本，AI永远无法达到接近人类水平的智力

所以我们真的缺少一些重要的东西，否则我们将能够用AI系统完成这些事情。

我们不断碰到一个叫做莫拉维克悖论（Moravec’s Paradox）的东西，即对我们而言看似微不足道、甚至不被认为是智能的事情，实际上用机器完成起来却非常困难，而像操纵语言这样的高级复杂抽象思维，似乎对机器来说却很简单，像下棋、围棋之类的事情也是如此。

也许其中一个原因是这样的。

一个大型语言模型（LLM）通常是在20万亿个token上进行训练的。

一个token基本上是一个单词的四分之三，平均来说。因此，这里总共是1.5×10的13次方个单词。每个token大约是3B，通常，这样就需要6×10的13次方个字节。

对于我们任何一个人来说，读完这些内容大约需要几十万年的时间，对吧？这基本上是互联网上所有公开文本的总和。

但考虑一下一个孩子，一个四岁的孩子总共清醒了16000小时。我们有200万个视神经纤维进入我们的大脑。每根神经纤维大约以每秒1B的速度传输数据，也许是每秒半个字节。有些估计说这可能是每秒3B。

这没关系，反正是一个数量级。

这个数据量大约是10的14次方个字节，差不多与LLM的数量级相当。因此，在四年内，一个四岁孩子看到的视觉数据与最大的语言模型在整个互联网上公开可用的文本上训练的数据量一样多。

以数据作为起点，这告诉我们几个事情。

首先，这告诉我们，仅仅通过训练文本，我们永远无法达到接近人类水平的智力。这是根本不可能发生的。

其次，视觉信息是非常冗余的，每根视神经纤维每秒传输1B的信息，这已经比你视网膜中的光感受器压缩了100比1。

我们视网膜中大约有6000万到1亿个光感受器。这些光感受器通过视网膜前的神经元压缩为100万个神经纤维。因此，已经存在100比1的压缩。然后到达大脑时，信息被扩展了大约50倍。

因此，我测量的是压缩信息，但它仍然非常冗余。而冗余实际上是自监督学习所需要的。自监督学习只会从冗余数据中学习到有用的东西，如果数据高度压缩，这意味着数据变成了随机噪声的，那么你就无法学习任何东西。

你需要冗余才能学习到任何东西。你需要学习数据的潜在结构。因此，我们需要训练系统，通过观看视频或在现实世界中生活来学习常识和物理知识。

我说话的顺序可能会有些混乱，我主要想告诉你这个目标驱动的人工智能架构到底是什么。它与LLM或前馈神经元有很大不同，因为推理过程不仅仅是通过神经网络的一系列层，而实际上是运行一个优化算法。

从概念上来看，它看起来是这样的。

一种前馈过程是观察结果通过感知系统运行的过程。例如，如果你有一系列的神经网络层并产生一个输出，那么对于任何单一输入，你只能有一个输出，但在很多情况下，对于一个感知，可能会有多个可能的输出解释。你需要一种不仅仅计算功能，而是能够为单一输入提供多个输出的映射过程。实现这一点的唯一方法是通过隐函数。

基本上，这个目标框架右侧的红色框表示一个函数，它基本上测量输入与其提议输出之间的兼容性，然后通过找到最与输入兼容的输出值来计算输出。你可以想象这个目标是某种能量函数，你是在以输出为变量最小化这个能量。

你可能会有多个解决方案，并且你可能有某种方法来处理这些多个解决方案。人类的感知系统确实如此，如果你对特定的感知有多个解释，你的大脑会自发地在这些解释之间循环。因此，有一些证据表明，这种类型的事情确实会发生。

但是让我回到架构上来。因此，利用这种通过优化推理的原则。如果你愿意，关于人类思维方式的假设如下。你在世界中作出观察。感知系统给你提供了世界当前状态的概念。但当然，它只给你提供了你当前能够感知的世界状态的概念。

你可能对世界其余部分的状态有一些记忆中的想法。这可能与记忆的内容结合在一起，并被输入到世界模型中。

什么是模型？世界模型是你对世界行为的心理模型，因此你可以想象你可能采取的一系列行动，而你的世界模型将允许你预测这些行动序列对世界的影响。

因此，绿色框表示世界模型，你将假设的一系列行动输入其中，它预测世界的最终状态将是什么，或者你预测在世界中将要发生的整个轨迹。

你将其与一组目标函数相结合。一个目标是测量目标实现的程度，任务是否完成，也许还有一组其他目标，作为安全边界，基本上测量所遵循的轨迹或采取的行动在多大程度上对机器人或机器周围的人没有危险，等等。

因此，现在的推理过程（我还没有谈论学习）仅仅是推理，包括寻找最小化这些目标的行动序列，找到最小化这些目标的一系列行动。这就是推理过程。

因此，这不仅仅是前馈过程。你可以通过搜索离散选项来完成这一点，但这并不高效。更好的方法是确保所有这些框都是可微分的，你可以对它们进行反向传播梯度，然后通过梯度下降更新行动序列。

现在，这个想法其实并不新鲜，已经存在了超过60年，甚至更久。首先，让我谈谈使用世界模型进行这种推理的优势。优势在于，你可以在不需要任何学习的情况下完成新任务。

我们时常这样做。我们面临新情况时，会考虑它，想象我们行动的后果，然后采取将实现目标（无论是什么）的行动序列，我们不需要学习来完成该任务，我们可以进行规划。因此，这基本上是规划。

你可以将大多数推理形式归结为优化。因此，通过优化进行推理的过程本质上比仅仅通过神经网络的多层运行更强大。正如我所说，这种通过优化进行推理的思想已经存在超过60年。

在优化控制理论领域，这被称为模型预测控制。

你有一个要控制的系统模型，比如火箭、飞机或机器人。你可以想象，利用你的世界模型计算一系列控制指令的效果。

然后你优化这一序列，使运动达到你想要的结果。所有经典机器人学的运动规划都是通过这种方式完成的，这并不是新事物。这里的新意在于，我们将学习世界模型，感知系统将提取出适当的抽象表示。

现在，在我进入一个例子之前，说明如何运行这个系统，你可以构建一个整体的AI系统，包含所有这些组件：世界模型、可以针对手头任务配置的成本函数、优化模块（即真正优化、寻找给定世界模型的最佳动作序列的模块）、短期记忆、感知系统等等。

那么，这样是如何工作的呢？如果你的动作不是单一动作，而是一个动作序列，而你的世界模型实际上是一个系统，它告诉你，在时间T的世界状态和可能采取的行动下，预测时间T+1的世界状态。

你想预测在这种情况下两个动作的序列将产生什么效果。你可以多次运行你的世界模型来实现这一点。

获取初始世界状态表示，输入对行动零的假设，利用模型预测下一状态，然后进行行动一，计算下一状态，计算成本，然后通过反向传播和基于梯度的优化方法，找出将最小化成本的两个动作。这就是模型预测控制。

现在，世界并不是完全确定的，因此你必须使用潜在变量来拟合你的世界模型。潜变量基本上是可以在一组数据中切换或从分布中抽取的变量，它们代表世界模型在与观察兼容的多个预测之间的切换。

更有趣的是，智能系统目前还无法去做人类乃至动物能够做到的事情，那就是分层规划。

例如，如果你在计划从纽约到巴黎的旅行，你可以使用你对世界、对身体的理解，可能还有你对从这里到巴黎整个配置的想法，以你的低级肌肉控制来规划你的整个旅行。

对吧？如果每十毫秒的肌肉控制步骤数量，所有这些你在去巴黎之前必须做的事情叠加起来，简直是巨大的数字。因此，你所做的就是以分层规划的方式进行规划，你从很高的层面开始说，好吧，要去巴黎，我首先需要去机场，搭乘飞机。

我如何去机场？假设我在纽约市，我必须下楼去叫出租车。我怎么下楼？我必须先从椅子上起来，打开门，走到电梯，按下按钮，等等。我如何从椅子上站起来？

在某个时刻，你将不得不将事情表达为低级肌肉控制动作，但我们并不是在以低级别的方式规划整个过程，而是在进行分层规划。

如何使用AI系统做到这一点仍然是完全未解决的，我们对此毫无头绪。

这似乎是智能行为的一个重要要求。

那么，我们如何学习能够进行层次规划的世界模型，能够在不同抽象层次上工作呢？没有人展示出任何接近这一点的成果。这是一个重大挑战。图像显示我刚刚提到的例子。

那么，我们现在如何训练这个世界模型呢？因为这确实是一个大问题。

我尝试弄清楚婴儿在什么年龄学习关于世界的基本概念。他们如何学习直观的物理学、物理直觉，以及所有这些内容？这些发生在他们开始学习语言和互动等事情之前很久。

因此，诸如面孔追踪之类的能力实际上发生得非常早。生物运动，即有生命的物体与无生命物体之间的区别，也会很早就出现。物体恒常性也是如此，指的是当一个物体被另一个物体遮挡时，它依然存在这一事实。

而婴儿是很自然地学习的，你不需要给他们事物的名称。他们会知道椅子、桌子和猫是不同的。而关于稳定性和支持性等概念，比如像重力、惯性、守恒、动量这些实际上大约在九个月大时才会出现。

这需要很长时间。因此，如果你向六个月大的婴儿展示左边的情境，即小车在平台上，你将它推下平台，它似乎在空中漂浮。六个月大的婴儿会注意到这一点，而十个月大的婴儿则会觉得这不应该发生，物体应该掉落。

当发生意外情况时，这意味着你的“世界模型”是错误的。所以你会关注，因为这可能会要了你的命。

因此，这里需要发生的学习类型与我们之前讨论的学习类型非常相似。

获取输入，以某种方式破坏它，并训练一个大型神经网络来预测缺失的部分。如果你训练一个系统来预测视频中将要发生的事情，就像我们训练神经网络预测文本中将要发生的事情一样，也许这些系统将能够学习常识。

不幸的是，我们已经尝试了这个十年了，结果完全失败。我们从来没有接近过能够通过仅仅试图预测视频中的像素来真正学习任何通用知识的系统。

你可以训练一个系统来预测看起来不错的视频。现在有许多视频生成系统的例子，但它们内部并不是良好的物理世界模型。我们不能用它们来做这件事。

好吧，所以我们将使用生成模型来预测个体将要发生的事情的想法，系统会神奇地理解世界的结构，这完全是失败的。

在过去的十年里，我们尝试了许多方法。

之所以失败，是因为有许多可能的未来。在像文本这样的离散空间中，你可以预测哪个单词会跟在一串单词之后，你可以生成字典中可能单词的概率分布。但当涉及到视频帧时，我们没有好的方法来表示视频帧的概率分布。实际上，这个任务完全不可能。

比如，我拍摄这个房间的视频，对吧？我拿着相机拍摄那部分，然后停止视频。我问系统接下来会发生什么。它可能会预测剩下的房间。会有一面墙，会有人坐着，密度可能会和左边的相似，但绝对不可能在像素级别上准确预测你们每个人的样子、世界的纹理以及房间的精确大小等所有细节。

所以，我提出的解决方案为联合嵌入预测架构（JEPA）。

其理念就是放弃预测像素，而是学习一个对世界运作的抽象表示，然后在这个表示空间中进行预测。这就是架构，联合嵌入预测架构。这两个嵌入分别取X（损坏版本）和Y，经过编码器处理，然后训练系统根据X的表示预测Y的表示。

现在的问题是，如果只是用梯度下降、反向传播来最小化预测误差来训练这样的系统，它将崩溃。它可能会学习一个常量表示，这样预测就变得非常简单，但却没有信息量。

因此，我希望你记住的是，生成架构试图重建预测的自编码器、生成架构、掩码自编码器等，与在表示空间中进行预测的联合嵌入架构之间的区别。

我认为未来在于这些联合嵌入架构，我们有大量的经验证据表明，学习良好的图像表示的最佳方法是使用联合编辑架构。

所有尝试通过重建来学习图像表示的尝试都很糟糕，效果不好，尽管有很多大型项目声称它们有效，但实际上并不行，最佳性能是通过右边的架构获得的。

现在，如果你仔细想想，这实际上就是我们智力的表现：寻找某种现象的良好表示，以便能够进行预测，这真的就是科学的本质。

真的。想想看，如果你想预测一个行星的轨迹，行星是一个非常复杂的物体，它巨大，具有天气、温度和密度等各种特征。

虽然它是一个复杂的对象，但要预测行星的轨迹，你只需要知道6个数字：3个位置坐标和3个速度向量，仅此而已，你不需要做其他任何事情。这是一个非常重要的例子，真正展示了预测能力的本质在于找到我们观察事物的良好表示。

那么，我们如何训练这样一个系统呢？

所以你想要防止系统崩溃。做到这一点的一种方法是使用某种代价函数，测量编码器输出的表示的信息内容，并尽量最大化信息内容，最小化负信息。你的训练系统要同时尽可能提取输入中的信息，同时最小化在该表示空间中的预测误差。

系统将找到提取尽可能多的信息与不提取不可预测信息之间的某种权衡。你将得到一个良好的表示空间，在这个空间中可以进行预测。

现在，你如何测量信息？这就是事情变得有点奇怪的地方。我将跳过这一点。

机器将会超越人类智力，且安全可控

实际上，有一种方法可以通过训练、基于能量的模型和能量函数从数学上理解这一点，但我没有时间深入探讨。

基本上，我在这里告诉你几件不同的事情：放弃生成模型，转而使用那些JEPA架构；放弃概率模型，转而使用那些基于能量的模型，放弃对比学习方法，还有强化学习。这些我已经说了10年了。

而这些都是今天机器学习中最流行的四个支柱。因此目前我可能不太受欢迎。

一种方法是估计信息量，测量来自编码器的信息内容。

目前有六种不同的方法来实现这一点。实际上，这里有一个叫做MCR的方法，来自我在NYU的同事，那就是防止系统崩溃并产生常数。

取出来自编码器的变量，并确保这些变量具有非零的标准差。你可以将其放入一个成本函数中，确保权重被搜索，变量不会崩溃并变为常数。这是比较简单的。

现在的问题是，系统可能会“作弊”，使所有变量相等或高度相关。因此，你需要添加另一个项，要求最小化这些变量的协方差矩阵的非对角线项，以确保它们相关。

当然，这还不够，因为变量仍可能依赖，但不相关。因此，我们采用另一种方法，将SX的维度扩展到更高的维度空间VX，并在该空间中应用方差协方差正则化，以确保满足要求。

这里还有一个技巧，因为我所最大化的是信息内容的上限。我希望实际的信息内容能跟随我对上限的最大化。我需要的是一个下限，这样它会推动下限，信息也会随之增加。不幸的是，我们并没有信息的下限，或者至少我们不知道如何计算它们。

有第二套方法，称为“蒸馏风格方法”。

这种方法以神秘的方式运作。如果你想清楚了解谁在做什么，你应该问坐在这里的Grill。

他在这方面有一篇个人论文，定义得很好。它的核心思想是只更新模型的一部分，而在另一部分不进行梯度的反向传播，并通过一种有趣的方式共享权重。关于这方面也有很多论文。

如果你想训练一个完全自监督的系统，以生成良好的图像表示，这种方法效果很好。图像的破坏是通过掩蔽进行的，最近的一些工作是我们为视频做的，这样我们就可以训练一个系统来提取良好的视频表示，以便用于下游任务，如动作识别视频等。你可以看到，给一个视频掩蔽掉一大块，通过这个过程进行预测，在表示空间中使用这种蒸馏技巧来防止崩溃。这效果很好。