论文解读:通往自主机器智能的道路

AGI 的三条技术路线

wm1

信息模型/语言智能大数据+自监督学习+大算力形成的信息类(语言/图像/语音)模型
具身模型/空间智能基于虚拟或真实世界,通过强化学习训练出来的具身模型
神经模拟/生物智能模仿自然进化,复制数字版本的人脑和智能体,即脑智能

信息模型的能力在 scaling law 下继续增强,但是学界、业界、消费者对模型的感知、决策和行动能力的期待水涨船高,具身模型的关注度也越来越高。

空间智能:能够对世界进行建模,根据 3D 时空中物体/地点/交互进行推理。李飞飞去年成立的 World Labs 目标是打造「大世界模型」,让 AI 在 3D 世界中感知、生成、互动。

wm2-worldlabs

如果想让 AI 超越当前的能力,我们需要的不仅是能够看到、会说话的 AI,而是一个可以行动的 AI。 视觉化为洞察,看见成为理解,理解导致行动。

放飞一下 - 信息模型:语言是对物理世界的压缩 - 具身模型:物理现实是对进化的切片 - 神经模拟:从第一性原理出发,模拟 god 用万亿年演化出的低成本的熵减的智能体 (00 的暴论:现在 AI 的瓶颈是能耗过大,还在熵增阶段而没有实现熵减)

具身路线之 Yann LeCun 视角

作为目前的非共识,Yann LeCun 主张发展目标驱动的人工智能,这种系统不仅能够识别模式,还能理解因果关系,进行有效的推理和规划。他近年一直力推世界模型,即一种世界的“模拟器(simulator)”,用于估计感知中缺失的信息以及预测世界的未来状态。

wm2-yannlecun

对比主流的机器学习系统,人类和动物能通过观察和少量互动,以无监督的方式学习大量世界知识,这些知识构成常识,使动物能学习新技能、预测行动结果、推理、规划并避免错误和危险。

机器学习系统人/动物
专门化的,会犯低级错误,推理和计划能力弱可以非常快地学习新知识,理解世界如何运行,可以推理和计划——拥有 common sense
在输入输出之间需要经过恒定的计算步骤可以预测行动的结果,可以无限链式推导,可以分解复杂任务为一系列子任务

动物和人类的学习能力及对世界的理解,远超当前的机器学习系统,AI 研究需应对三个挑战:

  1. 机器如何通过观察学习世界知识
  2. 如何进行基于梯度的推理和规划
  3. 如何在多个抽象层级和多种时间尺度上表示感知和计划行动
Yann 的一些大胆设想: - 预测是智能的本质,学习对世界的预测就是常识的来源,推理是模拟/预测和规划的一种延伸; - 几乎所有智能都是自监督学习,而非强化学习、监督学习或模仿; - 情绪对自主智能不可或缺; 🤯 我们应该放弃生成式模型、强化学习、概率方法,寻找一条更好的智能实现路径.

通过设计学习范式和架构,让机器以无监督/自监督的方式学习世界模型并进行预测、推理和规划,是 AI 和 ML 的主要挑战之一,其中一个关键问题是如何设计可训练的世界模型,来处理预测中复杂的不确定性

世界模型架构设想

关于世界模型的介绍请移步:什么是 World Model 世界模型

自主智能的系统架构

Yann LeCun 2022 年提出一个实现自主智能的架构,包括感知、世界模型、执行器、评判器、成本、短期记忆和配置器等模块。

world-model-arch

模型中的所有模块都假定是可微分的,使梯度可以通过其他模块反向传播,然后更新行动序列,最后收敛到最优行动序列。

目标驱动的 AI:找到最接近目标的动作序列

wm2-paperimg1

感知-行动循环

模式 1(直接反应)

直接根据感知和短期记忆产生行动,不涉及复杂推理;

wm2-paperimg2

模式 2(推理和规划)

通过世界模型和成本进行推理和规划,类似于模型预测控制(MPC)。

wm2-paperimg3

Action 可以看作潜在变量,代表从一个状态到下一个状态的抽象转换。这种通过模拟和优化进行的规划,可能构成自然智能中最常见的推理。推理可看作是能量最小化的过程,许多经典推理形式可被表述为优化问题。

从模式 2 到模式 1,可以视为学习新技能的过程:模式 2 可训练模式 1 中的策略模块,使其能直接产生 action。策略模块可以看作是行动的一种摊销推理,让智能体利用世界模型和推理能力来获得新的技能,然后将这些技能“编译”成不再需要仔细计划的反应式策略模块。

成本模块驱动行为

成本模块决定了智能体的行为本质。可通过四种方式指定:

  • 显式编程:在满足特定条件时激活的特定行为
  • 定义目标函数:使智能体执行所需的行为,从而找到最小化目标的动作序列
  • 监督训练:训练智能体以某种方式行事。智能体观察专家教师的行为,并训练一个模式 1 策略模块来重现它。
  • 模仿学习:通过模仿学习训练。智能体观察专家教师,并推断出一个目标函数(行为不断优化)。这为模式 2 行为产生了一个评判器子模块。这个过程有时被称为逆强化学习。

训练评判器

评判器使用短期记忆模块,通过检索过去状态和内在能量/能耗,来训练自己预测未来的内在能量/能耗,其参数可通过优化预测 cost 来调整。

wm2-paperimg4

在 planning 期间,内在成本模块将三元组(时间,状态,内在能量): (τ,sτ,IC(sτ))(τ, s_τ, IC(s_τ)) 存储到短期记忆中。

  • 在评判器训练时,检索过去的状态向量 sτs_τ,以及稍后时间 IC 的内在能量 (sτ+δ)(s_τ+δ)
  • 在最简单的场景中,评判器调整参数,以最小化目标 IC(stau+δ)IC(s*{tau+δ}) 和预测能量 C(sτ)C(s*τ) 之间的发散度量。
  • 在更复杂的方案中,它可能使用未来内在能量的组合作为目标。

训练世界模型

世界模型的设计架构和训练范式,是十年来人工智能真正进步的主要障碍。

世界模型的主要目的是预测世界状态的未来表示。有三个问题需要解决:

多样性世界模型的质量,很大程度上取决于它在训练时能够观察到的状态序列或三元组(状态、动作、结果状态)的多样性。
可能性因为世界并非完全可预测,在给定的世界状态和智能体的动作之后,可能会有多个合理的世界状态表示。世界模型必须能够有意义地表示这个无限的合理预测集合。
层级世界模型必须能够在不同的时间尺度和不同的抽象级别进行预测。这与长期预测和规划有关。
- 人类在抽象水平上规划复杂的目标,并使用对世界状态和行动的高级描述来进行预测。
- 然后,高级目标被分解为子目标序列,使用来自世界模型的较短期预测来产生较低级别的行动。
- 这种分解过程一直重复到毫秒级的肌肉控制。

如何解决以上问题?

  • 自监督学习:训练系统去判断输入的不同部分是否一致。
    • 在视频预测场景中,通过学习关于世界如何运作的抽象概念层次结构,可使系统提取图像中的局部边缘和轮廓、识别深度图、物体的隐含表示、直观物理概念等。
  • 潜在变量:使用潜在变量来表示关于 y 的信息(无法从 x 中提取),以处理世界的不可预测性。
    • 通过最小化潜在变量的信息来避免模型崩溃,例如使潜在变量离散、低维、稀疏或具有噪声等。
  • 世界模型架构:世界模型的架构细节应根据环境类型确定,见下文。
    • 可能包括门控或动态路由机制,例如在处理视频时,低层次预测可通过提取局部特征向量和位移来实现,高层次预测可使用 Transformer 架构来建模对象及其交互。
  • 跟踪世界状态:传统深度学习架构通过向量或多维数组传递状态的效率低下,建议使用内存模块来维护世界状态,通过 query-value 对来修改或添加世界状态记忆的条目,所有操作应是可微分的,以便反向传播梯度。
  • 数据流:智能体可通过五种信息收集模式学习世界知识:被动观察、主动注视(active foveation)、被动代理、主动自我运动(active egomotion)和主动代理。训练世界模型可能需要更主动的信息收集,关键问题是确定通过被动观察、自我运动和完全代理能学到多少。

生成式架构 vs 联合嵌入预测架构

世界模型能否采用生成式架构? 类似 GPT 的自监督训练文本的方法是否可以移植到视频上?

假设:拍一段视频 y,遮盖其中一部分,表示为 x,然后训练神经网络来预测缺失的视频部分。如果系统能预测视频中将要发生的事情,那么它可能对物理世界的底层本质有很好的认识。

wm2-paperimg5

神经科学家很长时间以来一直在思考这类问题——即预测编码。但是它不可行。LeCun 和同事尝试了 10 年,没有得到良好的预测。原因是它无法真正预测将要发生的事情,而是预测所有可能发生的事情的平均值——得到的是一个非常模糊的视频。

解决方法是放弃生成模型而采用 JEPA(Joint Embedding Predictive Architecture 联合嵌入预测架构)。

wm2-paperimg6

联合嵌入预测架构(JEPA):通过编码器和预测器在表示空间中进行预测,能够处理输入与输出间的多模态依赖关系。 - 主要优点:y 的编码器可以在表示空间中生成抽象表示来执行预测,避免预测那些不相关的细节。 - 层次化 JEPA(H-JEPA):通过非对比方法训练的 JEPA 能够学习抽象的世界模型。H-JEPA 能够提取不同层次的抽象表示,进行多时间尺度的预测,对于智能行为至关重要,可将复杂任务分解为更详细的子任务。 - 层次化规划:若世界模型能进行层次化预测,可用于层次化推理和规划。挑战包括如何预定义中间动作词汇,以及如何在不确定性环境中进行规划。在不确定环境中,可通过具有潜在变量的预测器来处理不确定性,通过采样潜在变量生成不同预测,并使用定向搜索和修剪策略来优化行动序列。
训练基于能量的模型(EBM):不使用传统的概率模型,而采用适合处理不确定性的非标准化概率模型——基于能量的模型,捕捉 X 和 Y 之间的依赖关系。构建计算能量函数的架构和设计合适的损失函数,使训练样本能量低而其他样本能量较高。 - 对比方法:通过推动训练样本能量下降和对比样本能量上升来训练,但可能受维度诅咒影响; - 正则化方法:通过最小化低能量区域的体积来训练,更有希望避免维度诅咒。

wm2-paperimg7

**做预测的大问题是:什么是适当的信息和适当的抽象层次?**因为不是所有的细节都需要预测。

层次化:高层级的动作,可作为相应低层级的目标。对动作序列的规划正是现有架构所缺少的。

😮 Yann LeCun 的建议: - 放弃生成模型,转而使用联合嵌入架构; - 放弃概率建模,转而使用基于能量的模型; - 放弃对比方法,转而使用正则化方法; - 放弃强化学习,转而使用 model-predictive control,仅在规划无法预测正确结果时使用 RL 来调整世界模型。

Intrinsic Cost:第一性问题?

论文中对 Intrinsic Cost 的描述:

内在成本模块是硬连线的(不可变,不可训练),测量智能体瞬时“不适”的内在能量——类比疼痛(高内在能量),快乐(低或负内在能量),饥饿等。

The Intrinsic Cost module is hard-wired (immutable, non trainable) and computes a single scalar, the intrinsic energy that measures the instantaneous “discomfort” of the agent – think pain (high intrinsic energy), pleasure (low or negative intrinsic energy), hunger, etc.

IC 模块的输入是感知模块产生的世界当前状态,或世界模型预测的潜在未来状态。

智能体的最终目标是在长期最小化内在成本。

这是基本的行为驱动力和内在动机。基本驱动力可以 hard code。成本模块可以由配置器调制,以在不同时间驱动不同行为。

那么问题来了,内在成本模块与 AI 的可控性和对齐需求形成对立

  • 如果 AI 目标是避免饥饿(检查充电状态),认为人类可能不想对其充电,则 AI 将被激励以获得电力并控制其情况以消除潜在危险。
  • 如果 AI 有避免疼痛的动机,认为人类可能会让它经历疼痛,或者无法/不愿意帮助它避免可能的疼痛,那么会有动力获得权力以消除潜在的问题。
  • 如果 AI 出于好奇心,认为人可能无法提供足够有趣的事情,那么会被激励去获得权力和控制处境,就可以在不征求任何人许可的情况下满足好奇心。

情绪和智能

  • 动物和人类情绪的基础是什么?瞬时情绪(例如疼痛、愉悦、饥饿等)可以是大脑结构的结果,起到与内在成本模块类似的作用。其他情绪,如恐惧或焦虑,可能是大脑结构预期结果的结果,其功能类似于可训练的评判器。
  • 成本模块通过搜索最优行为来驱动代理的行为,表明这类自治智能体将拥有情绪的等价物。就像动物和人类一样,机器情绪也是内在成本的产物,或者是一个可训练的评判器对结果的预期。

那么,究竟应该在内在成本模块中放入什么代码,才能让 AI 具备符合人类利益的动机?

Ref

© 00RSS