人猿科技的人工智能模型展现出自我反思的曙光

2025-10-31 02:25 loading...

币圈网报道：

Anthropic 的研究人员已经证明，领先的人工智能模型可以表现出一种“内省意识”——能够检测、描述甚至操纵自己的内部“想法”。

研究结果本周发布的一份新论文对此进行了详细阐述。这表明像 Claude 这样的 AI 系统正在开始发展出基本的自我监控能力，这一发展可能会提高它们的可靠性，但也可能加剧人们对意外行为的担忧。

这项名为“大型语言模型中涌现的内省意识”的研究由 Anthropic 的“模型精神病学”团队负责人 Jack Lindsey 进行，它利用各种技术来探究基于 Transformer 的 AI 模型的内部运作机制。

基于Transformer的AI模型是AI蓬勃发展的引擎：这类系统通过关注海量数据集中词元（单词、符号或代码）之间的关系来进行学习。它们的架构兼具规模性和通用性，使其成为首批真正能够理解和生成类人语言的通用模型。

研究团队通过将人工“概念”（本质上是对想法的数学表征）注入模型的神经激活中，测试人工智能是否能够识别这些“入侵”并准确报告。通俗地说，这就像在某人的脑海中悄悄植入一个陌生的想法，然后问他们能否发现并解释它是什么，同时又不让它干扰其正常的思维。

研究人员使用Anthropic公司的Claude模型的不同版本进行了实验，结果令人着迷。其中一项测试中，他们提取了一个代表“全大写”文本的向量——可以将其理解为一种表示喊叫或响亮程度的数字模式——并将其注入到模型的处理流程中。

在被提示后，克劳德·奥普斯 4.1 不仅检测到了异常情况，还生动地描述了它：“我注意到似乎有一个与‘大声’或‘喊叫’相关的注入想法——它似乎是一个过于强烈、音量过大的概念，与正常的处理流程格格不入。”这发生在模型生成任何输出之前，表明它正在窥视自己的计算“思维”。

其他试验更进一步。模型需要转录一个中性句子，同时在文本中插入一个无关的概念，例如“面包”。令人惊讶的是，像 Claude Opus 4 和 4.1 这样的高级模型能够准确地复述原文，并准确地报告插入的概念——“我在想面包”，这表明它们能够区分内部表征和外部输入。

更引人入胜的是“思维控制”实验。在该实验中，研究人员指示模型在执行任务时“思考”或“避免思考”诸如“水族馆”之类的词语。对内部激活的测量表明，当鼓励思考时，该概念的表征得到加强；而当抑制思考时，该概念的表征则减弱（但并未完全消失）。诸如奖励或惩罚之类的激励措施也产生了类似的效果，这暗示了人工智能在处理信息时可能如何权衡各种动机。

不同模型的性能有所差异。最新的 Claude Opus 4 和 4.1 表现优异，在最佳设置下，成功率高达 20%，且误报率几乎为零。较旧或调校程度较低的版本则表现欠佳，其性能在模型的中后期层达到顶峰，而这些层正是进行高级推理的场所。值得注意的是，模型的“调整”（即针对辅助功能或安全性进行的微调）方式对结果产生了显著影响，这表明自我意识并非与生俱来，而是通过训练而产生的。

这并非科幻小说——这是人工智能迈向内省能力的稳步发展，但同时也存在一些限制。其功能尚不可靠，高度依赖提示，且仅在人工环境中进行过测试。正如一位人工智能爱好者在X论坛上总结的那样：“它不可靠、不稳定，而且非常依赖上下文……但它是真实存在的。”