热点

大语言模型：推理能力不足，挑战严峻 - 准确率波动大，问题难度影响大

时间：2024-10-13 23:35 阅读：

　　近年来，大语言模型在各任务中的表现引关注，核心问题是其是否具逻辑推理能力。日前，苹果公司的 ImanMirzadeh 及团队提出 GSM-Symbolic 新基准，对多模型评估。结果显示，问题数值或名字变化时，模型表现波动显著，难度提升时表现迅速下降。研究认为，大语言模型缺乏真正逻辑推理能力，简单变化能致准确率下降，如数值调整降 10%，无关子句加入降 65%。OpenAI 发布 GSM8K 数据集，模型准确率提升但推理能力存疑。研究团队为探索发 GSM-Symbolic，从 5 方面说明大语言模型不具形式推理能力。包括 GSM8K 准确率不可靠，对名称和数字变动敏感，问题难度增表现剧降，添加无关子句性能大降，扩展规模不能解决根本问题。研究人员称，大语言模型更像模式匹配器，未来需突破实现逻辑推理以应对现实需求。

上一篇：冠城大通：变更名称与经营范围聚焦新材
下一篇：民生银行：监事杨毓因退休辞任 10 月 13 日

久冉科技

久冉科技

热点

大语言模型：推理能力不足，挑战严峻 - 准确率波动大，问题难度影响大