OpenAI方法论：“新奇”比好更好|巴伦读书会,《巴伦周刊》中文版，直达美股港股，透视全球投资，解析财富管理

看百年巴伦，做全球投资

打开App

OpenAI方法论：“新奇”比好更好|巴伦读书会

文|肯尼斯·斯坦利、乔尔·雷曼

编辑|彭韧

2023-05-14 22:09:05

让机器人走出迷宫的诀窍，恰恰是放弃让它走出迷宫的“执念”。

想象一下，如果让你教会一个带轮子的机器人独立走出迷宫，你会怎么做？

我猜很多人会这样做：为机器人编制一套名为“走出迷宫”或“直达出口”的程序。程序的每一个环节都要将“是否比前一步更接近迷宫出口”作为有效与否的唯一标准，丝毫不敢偏离；然后再按部就班地实现这些精心设计的目标。可能会有几次失败，不过没关系，最终机器人会按照我精心设计的程序成功走出迷宫。

这看似是一个十分严谨、科学且励志的方法。不过，事情真的这样简单吗？

新奇比“好”更重要

其实，这个实验来自于OpenAI的两位科学家尼斯·斯坦利（Kenneth Stanley）和他的学生乔尔·雷曼（Joel Lehman）早年间的一段特殊的经历。师生二人合著的新书《为什么伟大不能被计划》非常详细地记录了这个实验的经过。

首先，他们的实验团队测试了一种传统的、基于目标的探索方法：在这个测试中，一个驱动机器人更接近终点目标的行为被认定为更好的行为。换句话说，计算机将进一步探索那些驱动机器人更靠近目标的行为。这与大多数目标驱动型活动的运作方式相似，即我们不断地将时间和精力投入那些能够使我们更接近目标的行为上。但是，40次基于目标的迷宫实验中，机器人只成功了3次。

成功率如此之低，一定程度上反映出实验思路的问题。于是，二人反其道而行之，决定抛弃目标，来一场名为“新奇性搜索”（novel-search）的实验。

这种实验方法究竟怎么玩？它“好”在哪里？

图片说明：机器人迷宫，大圈代表机器人的起始位置，小圈代表目标位置。地图中看似通往目标位置的死胡同具有欺骗性。

一个带轮子的机器人在迷宫中尝试新奇性搜索，总是试图做出一些新举动。实验将如何开展？基本的想法是，计算机程序可以先产生新的“想法”，然后机器人尝试做出相应的行为。如果该行为在机器人尝试时被证明是新奇的，那么该行为可能是有趣的，所以程序可以将其认作一个好主意。请注意，这种判断想法质量的方式，与设定了具体目标的情况不同。例如，如果设定的目标是让机器人从起点位置走到迷宫的终点，那么“好”的行为，就应该是那些让机器人最终会比之前更接近迷宫终点的行为。

什么行为是好的或坏的是一个很重要的问题，因为程序将只会继续探索被认定为“好”的想法。换句话说，新奇性搜索的希望在于，好的想法可能是通往有趣事物的踏脚石。因此，在尝试了一系列的行为之后，程序决定专注于测试那些看起来有趣的行为。为了做到这一点，程序将采用这些新奇的想法并进行微调，继而观察是否会出现更有趣、更新奇的东西。

如果机器人绕过一堵从未绕过的墙，那么对该行为的微调就有可能让机器人走得更远。另一方面，如果机器人做了以前做过很多次的事情（比如撞墙），那么这个行为就会被忽略，不会被进一步探索。这种专注于如何在迷宫中实践更新奇的想法的方式，与任何其他类型的创造性思维相同，即你可能有一个有趣的想法，然后在思考一段时间后，发现它启发了其他有趣的想法。

这将是实验变得更耐人寻味的地方。想象一下，如果机器人不断尝试新的行为并进一步探索最新奇的行为，它就与我们在本章前文描述的那个机器人有点像：一开始总撞墙，然后知道了如何避免撞墙，最后学会穿过门洞。问题是，如果我们持续这样的新奇性搜索过程，机器人最终会不会发现一个能破除整个迷宫的行为（换句话说，一个能驱动机器人从起点顺利走到终点的行为），哪怕走出迷宫并不是它的目标？

实验结果表明，答案是肯定的——如果我们运行一段时间的新奇性搜索算法，计算机将持续产生驱动机器人通过整个迷宫的行为。这个实验结果很有趣，因为没有人编写让机器人顺利通过迷宫的程序。更重要的是，穿越迷宫从来都不是一个既定目标，该程序甚至不知道目标的存在。因此，有趣的是，新奇性搜索最终发现了一个看起来相当智能的行为，尽管从来没有人告诉计算机它应该做什么。

如果你是目标论的“粉丝”，并且认为目标是实现任何伟大的成就不可或缺的因素，那么你可能会认为：基于目标的方法在发现通往迷宫终点的行为方面，比新奇性搜索更可靠，因为后者甚至没有设定任何目标。但实验的结果恰好相反，新奇性搜索在探索走出迷宫的行为方面要可靠得多：40次新奇性搜索的迷宫实验，机器人在39次实验中找到了终点。

如此说来，让机器人走出迷宫的诀窍，恰恰是放弃让它走出迷宫的“执念”，是不是很有趣？

“目标”的迷思

想象一下，每天一觉醒来，不用去琢磨今天该干点儿什么，你有过这样的体验吗？假设你去上班，你的老板一反常态地没有开例会，既不讨论工作基准，也不说明工作节点，而是告诉你，就做你最感兴趣的事，你该如何自处？待稍后，你上网浏览新闻，里边既没有提到关于学习成绩的国家标准测试，也没有提及未达成的经济目标。说来也奇怪，当老师的，还是该上课的上课；市场上，该进行的交易也没有受到影响。

你或许在某个婚恋网站上发了一份自我介绍，但对于那些描述自己想找什么样的对象的问题，通通留白。今天你好像并没有特意找事情做，但寻找的过程并未停止。或许近期你不会碰上这么漫无目标的一天，但万一碰上了，这样的日子该怎么过？你或许会感到茫然困惑，或不知所措，或迷失方向。但有没有可能，你反而会觉得日子更好了？

有意思的是，我们难得去谈论“目标”在自身文化体系中的主导地位，尽管我们自出生起就受其影响。从蹒跚学步，到第一天进幼儿园，再到成年，我们跨入了一场“评估”的无限循环之中，且所有“评估”皆有目的——用以衡量特定目标（由社会或我们自己设定）的进展，比如精通一门学科并找到一份对口的工作。实际上，“目标”从一开始就躲在幕后，从源头开始，随着时间的推移不断积蓄力量，最终主宰我们的一切。

想要证据的话，你只需要顺道去趟家门口的书店看一眼，杂志架上琳琅满目的标题便会提醒你：或许你该跳个槽、减减肥、开个公司、找对象约个会、升个职、换身行头、赚个小几百万、买个房或卖个房，或打通某个电子游戏。

事实上，几乎所有值得去做的事情，都以一个又一个目标的形式呈现出来。我们这本书也并不是说完成上述目标都是浪费时间，其中大部分目标还是值得肯定的。但不论你对其中的某个目标有何想法，我们都很少质疑的是，用目标来框定我们所有的价值追求，是否合理？你敢不敢想象一下没有太多目标，甚至是压根没有目标的生活？这样的生活，有没有好处？不论你的答案是什么，都可以反映出我们的文化对“目标”是多么推崇备至！

另外我想说，这不仅仅涉及个人追求。虽然孩子们在学习某一科目的过程中，学校确实要依据进展情况打分。从学校的角度出发，其目标是培养能考出高分的学生，但学校自身也因此被分为三六九等。到了国家层面，各个国家同样设定了各种不同的目标，比如低犯罪率、低失业率或低碳排放等，为其投入大量的精力和资源，并跟踪这些目标和其他类似目标的进展。在上述社会追求的背后，存在着这样一个设想，不常为人道，却少有人质疑，即任何值得追求的社会成就，最好先将其设定为目标，然后大家齐心协力、坚定不移地朝着这个目标努力奋斗。这让人不禁发问：这世界上是否存在不需要设定目标就能完成的事情？

纵观大部分行业，答案似乎是“没有”。以工程师为例，他们经常会设置一系列严谨的产品标准，作为需要达成的“目标”，然后不厌其烦地将自己设计出的原型机与上述标准逐一比对。发明家也是如此，他们脑子里有一个构思，然后将其设定为一个“目标”，最后再想办法实现。同理，为确保项目获得充足的资金，科学家必须先确立一个明确的目标，然后这些目标的可实现性就成了评判项目能否获得资助的标准。如上诸般例子，不胜枚举。又比如投资人通常会预先设定盈利目标，亦如企业会制定利润目标，甚至艺术家和设计师也会把“如何实现自己的构思和设计”定为目标。

改变世界最好的方法，就是不要试图去改变它

“目标”一词在我们思维中的分量，甚至影响到了我们的交流方式。比如谈到自然界的动物，但凡涉及进化论，我们便会从两大角度看待动物的演化——“生存”和“繁衍”，即生物进化的预设目标。即便是在电脑中运行的各类算法和程序，其设计的初衷，也是为了实现某些特定目标，比如找出最佳的搜索结果，或者更好的棋局解法。事实上，此类算法在人工智能和机器学习领域相当普及，“目标函数”一词也因此在相关行业内人尽皆知。

或许前述诸多对“目标”的狂热追求有一定道理。在某种程度上，我们不得不相信目标的意义，才能允许它主导我们生活的方方面面。但背后的原因也可能恰恰相反，即我们已经太习惯于通过“目标”来界定所有的努力，甚至忘了我们可以去质疑目标的价值。无论如何，这种习惯成自然的常规做法，毕竟还是有一些吸引力的。

我们所有的追求，都可以被精确地设定为一个又一个具体目标，然后再近乎机械性地逐步推进。在我们面对生活的不易和迷惘时，这种想法无疑是一种很好的心理慰藉。因为若是从一开始，便有一座座整齐划一的里程碑来持续引导世界的走向，宛如发条钟表走时一般固定且可靠的话，人们绝对能感到极大的安全感。

尽管没有明说，但存在这样一种普遍的假设，即“设定目标”这一行为本身，就创造了可能性。实际上，只要你用心去做，便有可能事成，且一旦你找到了这种可能性，只需尽心尽力和持之以恒，成功便指日可待。这种“世上无难事”的哲学观也反映出，我们的文化对“目标”一词根深蒂固的好感，所以我们都被教过这么一个道理：只要目标明确，努力和付出必有回报。

即便如此，或许你依然会时不时地对这种想法感到不安。“有目标才有动力”，这句话听上去顺耳，但做起来糟心——海量的目标测算、评估和计量，将会侵入生活的方方面面，好似要把我们变成“目标”的奴隶，为了不可能实现的“绝对完美”奔波劳累。

或许在某些时候，“目标”能为我们提供生活的意义或方向，但它同样限制了我们的自由，成为禁锢我们探索欲望的牢笼。毕竟，如果我们所做的每件事，都被看作实现一个或另一个目标的踏脚石，那么充满乐趣去探索的机会就被剥夺了。因此，设定目标便会有代价。鉴于少有人就此种代价进行过详细论述，或许我们应该更认真地审视一番，即我们为了这种“目标乐观主义”到底牺牲了什么？

在此之前，需要强调的是，我们并非悲观主义者。本书看上去像是一本“怀疑论”作品，但实际并非如此。事实上，我们坚信人类的成就没有上限。我们只希望在本书中，强调一条异于常规的、不以目标为导向的成功之路。

我们的文化为了所谓的“目标”已经牺牲了太多，现在我们要做的就是悉数夺回。因为它偷走了我们去创造性探索的自由，阻碍我们去发掘一些意外的收获。目标论导致我们只关注终点的收获和风景，而忽视了每一条探索道路本身的特殊性和独特性价值。

伟大的发现就蛰伏在我们触手可及之处，只要我们能丢掉“目标”这一所谓的“定心丸”。有时候，改变世界最好的方法，就是不要试图去改变它——也许你已经意识到，最好的点子往往都是偶然所得。让我们先看看，如今大多数人往往是通过怎样的方式获得成功的。

《为什么伟大不能被计划》

原名：Why Greatness Cannot Be Planned: The Myth of the Objective

作者：肯尼斯·斯坦利（Kenneth Stanley），乔尔·雷曼（Joel Lehman）

译者：彭相珍

出版社：中译出版社

网站备案号：京ICP备19009821号-1
法律声明:转载内容版权归作者及来源网站所有本站原创内容转载请注明来源
商业媒体及纸媒请先联系：Juankang@barronschina.com.cn