GPT-4、Gemini同时被曝重大缺陷逻辑推理大翻车_bob线上安装-bob怎么下载-bob综合体育app入口

GPT-4、Gemini同时被曝重大缺陷逻辑推理大翻车

发布时间：2024-02-29 11:31:01 来源：bob线上安装

　　谷歌DeepMind最新研究发现，问题中前提的呈现顺序，对于大模型的推理性能有着决定性的影响，打乱顺序能让模型表现下降30%。

　　最近，谷歌DeepMind和斯坦福的研究人员发现：大模型在处理逻辑推理任务时，问题中信息呈现的顺序对模型的表现有着决定性的影响。

　　具体来说，当信息按照逻辑上的自然顺序排列时，模型的表现会更好。这一发现不仅适用于一般的逻辑推理问题，对于数学问题也同样有效。

　　要求大模型证明C为线的顺序呈现，那么大模型的成功率会比2，1，3的条件呈现顺序高出很多。

　　上图展示了一个失败的案例，GPT-4，Gemini Pro，GPT-3.5在改变相关规则的顺序后都未能成功生成证明。

　　上图能够准确的看出，对于当前主流的几个大模型，改变前提的叙述顺序都可能会导致性能大幅下降。

　　而且研究人员发现，如果进一步向上述逻辑推理任务中添加分散注意力的规则，打乱前提会导致更大的准确性下降。

　　实验中，研究人员通过将GSM8K测试集中的问题陈述顺序打乱，构建了GSM8K的变体——R-GSM测试集。

　　下图是其中一个例子，对于原本能解决的问题，将前提顺序打乱之后（R-GSM），LLM就变得无能为力。

　　虽然人类在解决逻辑问题时，对前提顺序也会有偏好，但LLM「更容易」受到这种顺序效应的影响。

　　研究人员认为这可能是由于自回归模型训练目标和/或训练数据中的偏差造成的。

　　对于人类来说，在处理这类问题时也倾向于按照某种特定的顺序来排列前提，以便更好地推理。但这种偏好对处理问题的能力影响不大，尤其是在涉及到直接的逻辑推理（如果P，则Q、P；因此Q）时。

　　特别是，当前提的排列顺序与它们在正确证明中的出现顺序一致时，LLM的表现最好。

　　1. 在提示中先提出「如果A则B」，然后是「如果B则C」，通常会比反过来的顺序有更高的准确率。

　　这种「乱序」的逻辑推理对人类来说很简单，但对语言模型而言却是一个重大的挑战。

　　当前提的顺序与真实的情况完全相反时，OpenAI的GPT模型表现得更好。这种方式使得模型可以通过从后向前的推理来进行推导。而PaLM 2-L在这种反向排序下的表现通常是最差的。

　　为了进一步系统性地研究这样的一个问题，研究人员在数学推理测试集GSM8K的基础之上开发了一个「乱序」测试集R-GSM。

　　具体来说，他们第一步选择问题描述中至少有5个句子的GSM8K测试问题，然后过滤掉那些没法替换问题顺序的问题，例如遵循事件因果顺序的问题陈述系列。

　　对于剩下的每个问题，保持最后一句话不变，并用其他句子的不同顺序重写问题描述。允许对单词进行少量编辑，以确保问题描述的正确性。

　　而对GSM8K做这样的变化，原因是基于研究人员对于问题中前提顺序的看法和认知来做调整的。

　　具体来说，研究人员将符合前向链式基本事实上的顺序称为前向顺序，其中每个推导步骤中应用的规则在问题描述中依次呈现。

　　直观地说，按照前向顺序呈现前提对人类来说简化了问题，因为这允许人类在阅读前提的同时即时写出证明。

　　相反，如果前提排序更加随意，则会增加任务难度，因为在进行推导时，人类需要在每个推理步骤中重复查找前提。

　　受这种直觉的启发，他们根据不同前提顺序与前向顺序的Kendall tau距离对其进行分类，归一化范围为[-1, 1]。

　　具体来说， = 1是前向阶次，将 = -1的阶次表示为后向阶次，它是前向阶次的反向，并通过后向链与证明保持一致。

　　为了深入研究 LLM 对不同前提顺序的偏好，除了正向（ = 1）和反向（ = -1）顺序外，他们还评估了模型在 = 0.5、0和-0.5时的性能。

　　规则越多，前提顺序效应就越明显。在他们的基准中，问题的规则数从4到12不等。

　　由于前提选择本身就具有挑战性，而且LLM非常容易被无关上下文分散注意力，因此分散注意力规则的存在也会使问题复杂化。

　　为每种数量的所需规则生成了200个问题。考虑到不同的前提顺序和干扰规则数量，每个问题包括15个变体，因此研究人员的基准中总共有27K个问题。

　　在R-GSM中，模型输入只包含问题描述，没有附加指令。对于逻辑推理，他们在提示中添加了一条指令，要求推导出每一步中使用的前提。

　　在这种情况下，问题不包含干扰规则，洗牌后的精确度是0.5、0 和-0.5时的结果。

　　上图展示了对前提排序进行细粒度细分的结果，根据Kendall tau距离对排序进行了分类。

　　有趣的是，虽然所有LLM最偏好前向排序，但它们对其他排序的偏好却不尽相同。

　　具体来说，GPT-4-turbo通常更喜欢后向阶，而且随着的绝对值越小，整体性能也会下降。

　　这一观察结果与人类的推理模式也是一致的，因为后向链是另一种成熟的推理方法。

　　随着的减小（即前提顺序与前向顺序的偏差增大），准确率也随之下降。Gemini Pro和GPT-3.5-turbo的偏好不太一致，但它们仍然比其他非正向前提顺序更倾向于使用后向顺序。

　　具体地说，两个 LLM 在使用前向顺序时再次取得了最佳性能，GPT-4-turbo更喜欢使用后向顺序而不是其他非前向顺序，而PaLM 2-L的性能随着越小而下降。

　　在上表中，研究人员列出了不同前提顺序下的预测误差细目。研究人员考虑了以下误差类别：

　　研究人员发现，在所有LLM中，事实幻觉通常是最常见的错误模式，而且这种错误类型会随着的减小而急剧增加。

　　主要原因是LLM倾向于按照问题中规则出现的先后顺序使用规则，因此当问题中的下一条规则尚未适用时，LLM可能仍然会幻觉出事实来完成证明步骤。

　　同时，研究人员观察到，在 = -1的情况下，错误驳斥的比例通常低于 1。

　　上表显示了R-GSM的总体结果。能够正常的看到，所有LLM在R-GSM上的性能都较低。

　　需要注意的是，GSM8K的原始问题并不一定是以最理想的方式编写的，因此有时人工重写会促进推理，使模型能够正确解决在原始问题上没有办法解决的重排序版本问题。

　　因此，在b中，对于每个LLM，也列出了模型在解决这样一些问题时对其原始描述的准确性。研究人员发现，所有LLM 在至少10%的重排序问题上都会失败，而在GPT-3.5-turbo中，这种性能直线下降超过了35%。

　　不难看出，在所有LLM中，需要更多推理步骤和包含更多句子的问题的证明准确率都会降低。

　　总体而言，GPT-4-turbo和Gemini Pro在推理步骤越多、问题越长的情况下，初始问题和重写问题的准确率差距就越大，而PaLM 2-L和GPT-3.5 turbo在推理步骤和问题长度不同的情况下，差距仍然相似。

　　为了进一步了解失败模式，他们针对每个LLM分析了那些原始问题能正确解决而重新排序的问题却没有办法解决的错误案例，并在下表中对常见错误类型进行了分类。

　　与研究人员在逻辑推理实验中观察到的情况类似，R-GSM中的预测错误主要是由LLM按照数字在问题中出现的先后顺序盲目使用数字造成的。

　　预测失败的原因是问题的后半部分描述了一些早期事件。另一类错误发生在按顺序处理问题时没有指定某些量，从而引入未知变量进行计算。

　　以上图中的问题为例。在原问题中，每种动物的数量都能够准确的通过其前一句话直接计算出来。

　　然而，在重新排序的问题中，沙鼠的数量无法根据前面的句子直接计算出来，因为到此为止，鱼的数量仍然是未知的，LLM必须先阅读剩下的句子并计算出鱼的数量。

　　然而，GPT-3.5-turbo的预测却使用上一步计算出的数字（即兔子的数量）来计算沙鼠的数量，因此导致错误。

　　这种失败模式在PaLM 2-L中不太常见，但在其他LLM的预测错误中仍占不可忽视的比例。

　　对于文章的给出的结论，有的网友想到了前提可能受时间方向的影响，因此导致不同的结果：

　　论文作者对此耐心回应道：「这里考虑的是只涉及模态的简单逻辑推理问题，命题不会改变。因此，根据定义，前提顺序并不重要，但对于LLM推理却很重要，而这正是当前LLM的一个弱点。」

　　一句话总结：虽然前提的顺序并不改变问题的本质，但会显著地影响大语言模型在推理任务上的表现。

　　研究人员经过全面的评估后发现，大语言模型在处理问题时，其表现与人类对前提顺序的偏好相似：

　　- 当问题的推理过程要求模型反复阅读问题描述时，表现可能下降超过30%。

　　尽管人类在解决推理问题时也倾向于某种特定的前提顺序，但大语言模型对这种排序效应的敏感度要更高。这种影响的产生可能有多个原因，例如模型的自回归设计、训练目标和训练数据的组合等。

　　此外，研究人员还将研究扩展到数学推理领域，并提出了R-GSM基准测试，进一步实验性地证实了排序效应的存在。

　　Xinyun Chen目前在Google DeepMind担任高级研究科学家，专注于大语言模型、代码自动生成以及人工智能安全领域的研究。

　　她于2022年在UC伯克利获得了计算机科学博士学位，并于2017年在上海交通大学ACM班取得了计算机科学学士学位，排名1/30。

　　Ryan A. Chi目前在斯坦福大学攻读计算机科学专业的研究生学位，并辅修音乐。

　　他对于自然语言处理和AI在医疗领域的应用方面有着丰富的经验，曾带领斯坦福大学NLP团队「Chirpy Cardinal」在Alexa Prize社交机器人大挑战5中荣获第一名，并拿下25万美元的奖金。

　　此外，他曾在谷歌Deepmind、和英伟达工作过，并曾担任过斯坦福ACM和斯坦福交响乐团的主席，而且还是斯坦福扑克锦标赛的联合发起人。

上一条：
提升无线通信性能的射频指标
下一条：
GSM网络维护优化参数提取意义介绍【详解】

bob线上安装

bob线上安装

GPT-4、Gemini同时被曝重大缺陷逻辑推理大翻车

友情链接：