近年来,大言语模型在各使命中的体现引重视,中心问题是其是否具逻辑推理才能。日前,苹果公司的 ImanMirzadeh 及团队提出 GSM-Symbolic 新基准,对多模型评价。成果显现,问题数值或姓名改变时,模型体现动摇明显,难度提高时体现敏捷下降。研讨以为,大言语模型缺少真实逻辑推理才能,简略改变能致准确率下降,如数值调整降 10%,无关子句参加降 65%。OpenAI 发布 GSM8K 数据集,模型准确率提高但推理才能存疑。研讨团队为探究发 GSM-Symbolic,从 5 方面说明大言语模型不具方式推理才能。包含 GSM8K 准确率不可靠,对称号和数字变化灵敏,问题难度增体现剧降,增加无关子句功能大降,扩展规划不能解决根本问题。研讨人员称,大言语模型更像形式匹配器,未来需打破完成逻辑推理以应对实际需求。