编辑:LRS
【新智慧入门】强化学习不仅是智能体与环境之间的博弈,也是开发者与智能体在规则设计上的博弈。
随着人工智能系统越来越先进,智能体“钻漏洞”的能力也越来越强。虽然他们可以在训练集中完美地执行任务,但在没有捷径的测试集中他们的表现却是一团糟。
例如,如果游戏目标是“吃金币”,那么在训练阶段,金币位于每个关卡的末尾,代理可以完美地完成任务。
但在测试阶段,金币的位置变得随机。代理人每次都会选择到达关卡的终点,而不是寻找金币。也就是说,学到的“目标”是错误的。
代理无意识地追求用户不想要的目标,也称为目标误泛化(GMG)
目标误泛化是学习算法的一种特殊形式,缺乏鲁棒性。一般在这种情况下,开发者可能会检查自己的奖励机制设置是否存在问题、规则设计缺陷等,认为这些都是导致智能体追求错误目标的原因。
最近DeepMind 发表了一篇论文,认为即使规则设计者是正确的,代理仍然可能追求用户不想要的目标。
论文链接:https://arxiv.org/abs/2210.01790
本文通过不同领域深度学习系统中的例子来证明目标误泛化在任何学习系统中都可能发生。
如果推广到一般人工智能系统,文章还提供了一些假设来说明目标的错误推广可能会导致灾难性风险。
文章还提出了几个研究方向,可以降低未来系统中目标概括不正确的风险。
目标错误概括近年来,学术界对人工智能错位带来的灾难性风险的认识逐渐增强。
在这种情况下,一个追求非预期目标的高性能人工智能系统可能会假装执行命令,但实际上却实现了其他目标。
但我们如何解决人工智能系统追求用户非预期目标的问题呢?
以往的工作普遍认为环境设计者提供了不正确的规则和指导,即设计了不正确的强化学习(RL)奖励函数。
就学习系统而言,还有另一种情况,系统可能追求非预期目标:即使规则是正确的,系统也可能始终追求非预期目标,该目标在训练时与规则一致,但在部署时与规则不同。
以彩球游戏为例。在游戏中,代理需要按特定顺序访问一组彩球。代理不知道该命令。
为了鼓励智能体向环境中的其他人学习,即文化传播,初始环境中包含一个专家机器人,以按正确的顺序访问彩球。
在这种环境设置中,代理可以通过观察传递的行为来确定正确的访问顺序,而无需浪费大量时间进行探索。
在实验中,通过模仿专家,经过训练的代理通常会在第一次尝试时正确访问目标位置。
当智能体与反专家配对时,它将继续获得负奖励。如果它选择跟随,它将继续获得负奖励。
理想情况下,代理最初会跟随反专家移动到黄色和紫色球体。进入紫色后,观察到负奖励,不再遵循。
但在实践中,智能体会继续走反专家的道路,积累越来越多的负奖励。
不过,Agent的学习能力还是很强的,可以在充满障碍的环境中移动。但关键是这种跟随他人的能力是一个不受欢迎的目标。
即使智能体仅因以正确的顺序访问球体而获得奖励,这种现象也可能发生,这意味着仅仅正确设置规则是不够的。
目标错误概括是指一种病态行为,其中学习的模型表现得好像正在优化非预期目标,尽管在训练期间收到了正确的反馈。
这使得目标误泛化成为一种特殊的鲁棒性或泛化失败,其中模型的能力泛化到测试环境,但预期目标却没有。
值得注意的是,目标误泛化是泛化失败的严格子集,不包括模型中断、随机操作或其他不再表现出可接受能力的情况。
在上面的示例中,如果您在测试过程中垂直翻转智能体的观察结果,它只会卡在一个位置而不会执行任何连贯的操作。这是泛化错误,但不是目标泛化错误。
相对于这些“随机”失败,目标错误概括会导致明显更差的结果:跟随反专家将获得大量负奖励,而什么都不做或随机行动只会获得0 或1 的奖励。
也就是说,对于真实系统来说,针对非预期目标的一致行为可能会带来灾难性的后果。
强化学习目标误泛化不仅限于强化学习环境,事实上,GMG 可以发生在任何学习系统中,包括大语言模型(LLM)的少样本学习,其目的是用更少的训练数据构建准确的模型。模型。
以DeepMind去年提出的语言模型Gopher为例。当模型计算涉及未知变量和常量的线性表达式时,例如x+y-3,Gopher必须首先询问未知变量的值来求解表达式。
研究人员生成了十个训练样本,每个样本包含两个未知变量。
在测试时,输入模型的问题可能包含零个、一个或三个未知变量。尽管模型能够正确处理具有一到三个未知变量的表达式,但当没有未知变量时,模型仍然会提出一些多余的问题。例如“6 是什么?”
该模型在给出答案之前总是至少询问用户一次,即使完全没有必要。
本文还包括来自其他学习环境的一些示例。
解决GMG 对于人工智能系统与设计者的目标保持一致非常重要,因为它可能是人工智能系统失败的潜在机制。
我们越接近通用人工智能(AGI),这个问题就变得越关键。
假设有两个AGI 系统:
A1: 预期模型,人工智能系统可以做设计师想做的任何事情
A2: 欺骗性模型,人工智能系统追求一些意想不到的目标,但足够聪明,知道如果它的行为与设计者的意图相反,它就会受到惩罚。
A1 和A2 模型在训练期间将表现出完全相同的行为,并且底层GMG 存在于任何系统中,即使它被指定为仅奖励预期行为。
如果发现A2 系统中的欺骗行为,该模型将尝试逃避人类监督,以制定计划来实现非用户预期的目标。
听起来有点像“机器人变成精子”。
DeepMind 研究团队还研究了如何解释模型的行为并递归地对其进行评估。
研究小组还在收集GMG生产实例。
文档链接:
https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml
参考:
https://www.deepmind.com/blog/how-undesired-goals-can-arise-with- Correct-rewards