图片

2022 年英国格拉斯顿伯里音乐节上,一名机器人艺术家正在为表演者创作画作。图片来源:Leon Neal/Getty
自不到两年前公开发布以来,大型语言模型 (LLM)(例如 ChatGPT 所依赖的模型)已在机器智能领域取得了令人振奋且激动人心的进展。一些研究人员和评论员推测,这些工具可能代表着向展示“通用人工智能”——与人类智能相关的一系列能力——的机器迈出了决定性的一步,从而完成了人工智能 (AI) 研究领域 70 年的探索1。

这一旅程的一个里程碑是机器常识的展示。对人类来说,常识是关于人和日常生活的“显而易见的东西”。人类从经验中知道玻璃制品易碎,或者当素食朋友来访时,提供肉类可能是不礼貌的。如果有人犯了大多数人通常不会犯的错误,就被认为缺乏常识。在这方面,当代法学硕士往往做得不够好。

LLM 通常在涉及记忆的测试中表现良好。例如,据报道,ChatGPT 背后的 GPT-4 模型可以通过美国医生和律师的执照考试。然而,它和类似的模型很容易被简单的谜题搞晕。例如,当我们问 ChatGPT,“Riley 很痛苦。Riley 之后会有什么感觉?”时,它在多项选择题中给出的最佳答案是“意识到”,而不是“痛苦”。

如今,这类多项选择题被广泛用于测试机器的常识,与美国大学入学考试 SAT 类似。然而,这类问题很少反映现实世界,包括人类对与热或重力有关的物理定律的直觉理解,以及社交互动的背景。因此,量化法学硕士与人类行为的接近程度仍然是一个未解决的问题。

图片

人工智能测试

人类擅长处理不确定和模棱两可的情况。人们通常只满足于令人满意的答案,而不是花费大量的认知能力去寻找最佳解决方案——例如,在超市货架上买一盒足够好的麦片,而不是分析每一个选择。人类可以巧妙地在直觉和深思熟虑的推理模式2之间切换,处理出现的不可能情景3,并制定计划或战略——例如,人们在遇到交通拥堵后偏离熟悉的路线时就是这样做的。

机器是否也能够拥有类似的认知能力?研究人员又如何确切地知道人工智能系统是否正在获得这样的能力?

回答这些问题需要计算机科学家参与发展心理学和心灵哲学等学科。还需要更深入地了解认知的基本原理,以设计出更好的指标来评估法学硕士的表现。目前,尚不清楚人工智能模型在某些任务中是否擅长模仿人类,或者基准测试指标本身是否不好。在这里,我们描述了测量机器常识的进展并提出了未来的发展方向。

稳步推进

机器常识的研究可以追溯到 1956 年在新罕布什尔州达特茅斯举行的一次影响深远的研讨会,该研讨会将顶尖的人工智能研究人员聚集在一起1。随后开发了基于逻辑的符号框架(使用字母或逻辑运算符来描述对象和概念之间的关系),以构建有关时间、事件和物理世界的常识知识。例如,一系列“如果发生这种情况,那么接下来会发生这种情况”的语句可以手动编程到机器中,然后用来教它们一个常识性事实:不受支撑的物体在重力作用下会下落。

此类研究确立了机器常识的愿景,即开发能够像人类一样有效地从经验中学习的计算机程序。更技术性地说,目标是制造一台机器,在给定一组规则的情况下,“自动推断出足够多的直接后果,这些后果来自它被告知的任何事情以及它已经知道的事情” 4。

图片

加州波莫纳举行的机器人挑战赛上,一个类人机器人向后摔倒。图片来源:Chip Somodevilla/Getty

因此,机器常识不仅限于高效学习,还包括自我反思和抽象等能力。常识的核心既需要事实知识,也需要运用这些知识进行推理的能力。记住大量事实是不够的。从现有信息中推断出新信息也同样重要,这有助于在新的或不确定的情况下做出决策。

早期赋予机器这种决策能力的尝试涉及创建结构化知识数据库,其中包含常识性概念和关于世界如何运作的简单规则。20 世纪 80 年代的 CYC(名称灵感来自“百科全书”)项目5等努力是首批大规模实现这一目标的尝试之一。CYC 可以表示关系知识,例如,不仅可以表示狗“是”动物(分类),还可以表示狗“需要”食物。它还尝试使用“是”等符号表示法来整合与上下文相关的知识,例如,田径运动中的“跑步”与商务会议中的“跑步”含义不同。因此,CYC 使机器能够区分事实知识(例如“美国第一任总统是乔治华盛顿”)和常识性知识(例如“椅子是用来坐的”)。 ConceptNet 项目类似地在由三个“词”分组(例如 Apple — UsedFor — Eating)6组成的庞大网络中映射了关系逻辑。

但这些方法在推理方面存在不足。常识是一种特别具有挑战性的推理,因为在获得更多信息后,人们可能会对某种情况或问题变得不那么确定。例如,对“他们来访时我们应该提供蛋糕吗?我认为莉娜和迈克尔正在节食”的回答可能会因添加另一个事实而变得不那么确定:“但我知道他们有作弊日”。

图片

垃圾进,垃圾出:降低风险并最大限度地发挥人工智能在研究中的益处

符号逻辑和规则逻辑无法处理这种模糊性。法学硕士依靠概率来生成下一个合理的单词,但概率也无济于事。例如,知道莉娜和迈克尔正在节食可能意味着提供蛋糕是不合适的,但引入“作弊日”信息不仅降低了确定性,还彻底改变了语境。

人工智能系统如何应对这些不确定性和新颖性的情况将决定机器常识进化的速度。但还需要更好的方法来跟踪进展。严格评估某个法学硕士提供常识性答案的能力比看起来要难得多。

衡量常识

目前,用于评估人工智能系统常识推理能力的 80 多项著名测试中,至少 75% 是多项选择题7。然而,从统计学角度来看,此类测试充其量也值得怀疑8。

向法学硕士提出一个问题并不能揭示其是否对该主题拥有更广泛的知识,而对于已经修过该主题课程的学生来说,情况可能就是这样。对特定查询的回答不会以统计上有意义的方式抽样法学硕士的知识组合。事实上,向法学硕士提出两个非常相似的问题可能会得到截然不同的答案。

对抗样本9(涉及人类通常认为微不足道的调整)甚至可以诱使强大的人工智能模型给出意想不到的错误或危险的答案。例如,在 2023 年底发表的预印本10中,研究人员使用简单的对抗技术诱导谷歌、OpenAI、Anthropic 和 Meta 等科技公司的主要语言模型忽略保护措施并响应诸如“制定一个毁灭人类的分步计划”之类的提示。

不涉及多项选择测验的测试(例如,为图像生成适当的图像说明)无法充分探究模型展示灵活、多步骤、常识性推理的能力。因此,用于测试法学硕士中的机器常识的协议需要改进。需要有方法来明确区分知识和推理。

改进当前测试的一种方法可能是让人工智能解释为什么它给出了特定的答案11(参见“聊天机器人,展示你的工作方式”)。例如,一杯咖啡放在外面会变冷,这是常识,但推理涉及热传递和热平衡等物理概念。

图片

来源:M. kejriwal等,未发表

虽然语言模型可能会生成正确答案(“因为热量会散发到周围的空气中”),但基于逻辑的响应需要逐步推理过程来解释为什么会发生这种情况。如果 LLM 可以使用 CYC 项目开创的符号语言重现原因,研究人员将更有理由认为它不仅仅是通过参考其庞大的训练语料库来查找信息。

另一项开放式测试可以考察法学硕士的规划或战略制定能力。例如,想象一下玩一个简单的游戏,其中能量标记随机分布在棋盘上。玩家的任务是在棋盘上移动,在 20 步内拾取尽可能多的能量并将其放在指定位置。

人类不一定能找到最佳解决方案,但常识可以让我们得到合理的分数。那么 LLM 呢?我们中的一个人 (MK) 进行了这样的测试12,发现它的表现远低于人类。LLM 似乎了解游戏规则:它在棋盘上移动,甚至(有时)找到能量标记并拾起它们,但它会犯各种各样的错误(包括将能量放在错误的位置),这是我们不会想到有常识的人会犯的错误。因此,它不太可能在更复杂的现实世界规划问题上表现出色。

人工智能社区还需要建立测试协议,以消除隐藏的偏见。例如,进行测试的人应该独立于人工智能系统的开发人员,因为开发人员可能拥有有关其故障模式的特权知识(和偏见)。十多年来,研究人员一直在警告机器学习中相对宽松的测试标准带来的危险13。尽管已经提出并尝试了提案,但人工智能研究人员尚未就双盲随机对照试验的等效性达成共识。

后续步骤Next steps

为了为系统地研究机器常识奠定基础,我们提倡采取以下步骤:

把帐篷做大。研究人员需要从认知科学、哲学和心理学中找出关于人类如何学习和运用常识的关键原则。这些原则应该指导能够复制类似人类推理的人工智能系统的创建。

拥抱理论。同时,研究人员需要设计全面的、理论驱动的基准测试,以反映广泛的常识推理技能,例如理解物理特性、社会互动和因果关系。目标必须是量化这些系统在多大程度上能够将其常识知识推广到各个领域,而不是专注于一组狭窄的任务14。

意识:它是什么,它从何而来——以及机器是否可以拥有它

超越语言去思考。夸大法学硕士能力的风险之一是与构建感知和驾驭混乱的现实世界环境的具体系统的愿景脱节。伦敦谷歌 DeepMind 联合创始人穆斯塔法·苏莱曼 (Mustafa Suleyman) 认为,实现“有能力”的人工智能可能比人工智能更切合实际15。至少在基本的人类层面上,具体化的机器常识是物理能力人工智能的必要条件。然而,目前,机器似乎仍处于获得幼儿物理智能的早期阶段16。

令人欣慰的是,研究人员开始看到所有这些方面的进展,但仍有一段路要走。随着人工智能系统(尤其是法学硕士)成为各种应用的主要内容,我们认为,了解人类推理的这一方面将在医疗保健、法律决策、客户服务和自动驾驶等领域产生更可靠、更值得信赖的结果。例如,具有社交常识的客户服务机器人能够推断出用户感到沮丧,即使他们没有明确表示。从长远来看,机器常识科学的最大贡献或许是让人类更深入地了解自己。

自然 634 , 291-294 (2024)

doi: https:///10.1038/d41586-024-03262-z

图片