研究人员发现,有证据表明,人工智能模型宁愿撒谎,也不愿承认不知情的耻辱。它们的大小和复杂性越大,这种行为似乎就越明显。
一项新的研究发表在 自然 发现LLM越大,它们在特定任务中的可靠性就越低。它并不完全以我们感知这个词的方式撒谎,但即使答案与事实不符,他们也倾向于自信地回答,因为他们被训练成相信答案是正确的。
这种现象被研究人员称为“超crepidarian”,这是一个19世纪的词,基本上意味着对你一无所知的事情发表意见,描述了LLM冒险远远超出他们的知识库来提供回应。该研究指出:“当LLM不知道但仍在回答时,他们的失败比例更高。”。换句话说,这些模型并没有意识到自己的无知。
这项研究考察了几个LLM系列的性能,包括OpenAI的GPT系列、Meta的LLaMA模型和BigScience的BLOOM套件,突显了不断增强的模型功能与可靠的现实性能之间的脱节。
虽然较大的LLM通常在复杂任务上表现出更好的性能,但这种改进并不一定能转化为一致的准确性,尤其是在更简单的任务上。这种“难度不一致”——LLM在人类认为容易的任务上失败的现象——破坏了这些模型可靠操作区域的想法。即使有越来越复杂的训练方法,包括扩大模型大小和数据量,以及用人类反馈塑造模型,研究人员也尚未找到一种有保证的方法来消除这种不一致。
这项研究的结果与关于人工智能发展的传统观念背道而驰。传统上,人们认为增加模型的大小、数据量和计算能力会带来更准确和值得信赖的输出。然而,研究表明,扩大规模实际上可能会加剧可靠性问题。
较大的模型显示出任务回避的显著减少,这意味着它们不太可能回避难题。虽然乍一看这似乎是一个积极的发展,但它也有一个明显的缺点:这些模型也更容易给出不正确的答案。在下图中,很容易看出模型是如何抛出不正确的结果(红色)而不是避免任务(浅蓝色)的。正确答案以深蓝色显示。
研究人员指出:“目前,缩放和整形会以避免更多不正确为代价”,但解决这个问题并不像训练模型更加谨慎那么容易。研究人员表示:“成型模型的回避率显然要低得多,但不正确率要高得多。”。然而,经过训练以避免执行任务的模型最终可能会变成 懒惰者 或 神经衰弱 –正如用户在ChatGPT或Claude等不同顶级LLM中所注意到的那样。
研究人员发现,这种现象并不是因为较大的LLM不能在简单的任务上表现出色,而是因为他们被训练成更精通复杂的任务。这就像一个习惯于只吃美食的人突然难以制作家庭烧烤或传统蛋糕。在庞大而复杂的数据集上训练的人工智能模型更容易错过基本技能。
模特们表面上的自信使问题更加复杂。用户经常 发现它具有挑战性 g辨别人工智能何时提供准确信息,何时自信地散布错误信息。这种过度自信可能会导致对人工智能输出的危险过度依赖,特别是在医疗保健等关键领域 法律咨询 .
研究人员还指出,放大模型的可靠性在不同领域存在波动。虽然一个区域的性能可能会提高,但在另一个区域,性能可能会同时下降,从而产生一种“打地鼠效应”,使建立任何“安全”的操作区域变得困难。研究人员写道:“回避型答案的百分比很少比不正确答案的百分比上升得更快。读数很明显:错误仍然变得更加频繁。这代表了可靠性的退化。”。
该研究强调了当前人工智能训练方法的局限性。旨在塑造人工智能行为的强化学习(RLHF)等技术实际上可能加剧了这一问题。这些方法似乎正在减少模型避免它们没有能力处理的任务的倾向——还记得臭名昭著的“作为人工智能语言模型,我不能?”——无意中鼓励了更频繁的错误。
快速工程,工艺艺术 有效查询 对于人工智能系统来说,这似乎是应对这些问题的关键技能。即使是像GPT-4这样的高度先进的模型也对问题的措辞表现出敏感性,微小的变化可能会导致截然不同的输出。
在比较不同的LLM家族时,这更容易注意到:例如, 克劳德3.5十四行诗 需要一种完全不同的提示风格 OpenAI o1 以达到最佳效果。不恰当的提示可能会使模型或多或少地产生幻觉。
长期以来,人类监督被认为是防止人工智能错误的保障,但可能不足以解决这些问题。研究发现,即使在相对简单的领域,用户也经常难以纠正不正确的模型输出,因此依赖人类判断作为故障保护可能不是正确模型训练的最终解决方案。研究人员观察到:“用户可以识别出这些高难度的情况,但仍然会经常出错以纠正监督错误。”。
这项研究的结果对当前人工智能的发展轨迹提出了质疑。虽然对更大、更有能力的模型的推动仍在继续,但这项研究表明,在人工智能可靠性方面,更大并不总是更好。
现在,公司更注重数据质量而不是数量。例如,Meta的最新 Llama 3.2型号 与在更多参数上训练的前几代相比,可以获得更好的结果。幸运的是,这使他们 人性化程度较低 ,所以当你问他们世界上最基本的事情让他们看起来很愚蠢时,他们可以承认失败。
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
发布者:币下载 转转请注明出处:https://www.binancememe.com/348755.html