热点
大语言模型:推理能力不足,挑战严峻 - 准确率波动大,问题难度影响大
时间:2024-10-13 23:35 阅读:
近年来,大语言模型在各任务中的表现引关注,核心问题是其是否具逻辑推理能力。日前,苹果公司的 ImanMirzadeh 及团队提出 GSM-Symbolic 新基准,对多模型评估。结果显示,问题数值或名字变化时,模型表现波动显著,难度提升时表现迅速下降。研究认为,大语言模型缺乏真正逻辑推理能力,简单变化能致准确率下降,如数值调整降 10%,无关子句加入降 65%。OpenAI 发布 GSM8K 数据集,模型准确率提升但推理能力存疑。研究团队为探索发 GSM-Symbolic,从 5 方面说明大语言模型不具形式推理能力。包括 GSM8K 准确率不可靠,对名称和数字变动敏感,问题难度增表现剧降,添加无关子句性能大降,扩展规模不能解决根本问题。研究人员称,大语言模型更像模式匹配器,未来需突破实现逻辑推理以应对现实需求。