连GPT-4都考不及格，17个大模型悉数落败，因果推理太难了

作者：机器之心发布时间：2023-06-19

GPT-4 ChatGPT

自 ChatGPT 发布以来，大模型的涌现能力一直被人们称赞，包括强大的语言理解能力、生成能力、逻辑推理能力等。然而，最近一项研究表明，大模型在因果推理方面普遍性能很差，连 GPT-4 都不及格。这...【查看原文】

相关资讯

CSDN 2023-10-26

全都不及格！斯坦福100页论文给大模型透明度排名，GPT-4仅排第三

试问百模大战的当下，谁家大模型的透明度最高？现在，这个问题终于有解了。专门设计了一个名为基础模型透明度指标（TheFoundationModelTransparencyIndex）的评分系统。它从100个维度对国外10家主流的大模型做了排名，并在透明度这一层面上做了全面的评估。结果可谓是大跌眼镜！

斯坦福 GPT-4

量子位 2023-10-19

GPT-4不偷懒了！OpenAI连甩五个大模型，价格最低打两折

据介绍，该模型能更完整彻底地完成代码生成等任务，以减少模型未完成任务的“惰性”情况。OpenAI透露，他们将在下周推出新的GPT-3.5Turbo模型gpt-3.5-turbo-0125，价格更低、性能更强。

GPT-4 OpenAI 编程

量子位 2024-01-26

近期资讯

黄光裕豪赌汽车赛道

用国美的方式卖车。

车云 2024-12-31

在这片“黑土地”上，百万工程师种出了“创新果实”

工业软件驱动现代制造，嘉立创提升硬件创新与制造效率。

晓曦 2024-12-31

熟练掌握办公软件？来参加Excel世界大赛吧，用数据来打魔兽

“下次再也不说我熟练掌握Excel了！”

万物杂志 2024-12-31

剪映产品负责人张逍然离职 | 36氪独家

剪映正值全力冲刺阶段，并且也是字节AI业务的重要落地载体。

咏仪 2024-12-31

没想到微信出的送礼功能，大家都还蛮喜欢

有没有人愿意送我点什么呀？

差评 2024-12-31

开业3个月排号突破2000+桌、获央视报道，烤鱼何以再次出圈？

一个品牌和品类相互成就的典型样本。

36氪产业创新 2024-12-31

都快2025年了，为什么韩国这飞机还会撞鸟？

年关将至，大家都要好好的。

差评 2024-12-31

「迈塔兰斯」获超亿元A+轮融资，建成全球首条超透镜量产交付产线｜硬氪首发

已进入量产阶段。

胡依婷 2024-12-31

明星也逃不过孩子的“身高焦虑”，支撑起百亿生长激素市场｜早期项目

竞争者数量有限。

胡香赟 2024-12-31

盐津铺子：量贩和爆款之后，该向什么要增长？

盐津铺子，走进微增时代？

节点财经 2024-12-31

连GPT-4都考不及格，17个大模型悉数落败，因果推理太难了

推荐体验

相关资讯

连GPT-4都考不及格，17个大模型悉数落败，因果推理太难了

达摩院发布大模型测试基准：GPT-4勉强及格，其他模型悉数落败

让 GPT-4 修改文件，真的太难了！

全都不及格！斯坦福100页论文给大模型透明度排名，GPT-4仅排第三

GPT-4不偷懒了！OpenAI连甩五个大模型，价格最低打两折

近期资讯

黄光裕豪赌汽车赛道

在这片“黑土地”上，百万工程师种出了“创新果实”

熟练掌握办公软件？来参加Excel世界大赛吧，用数据来打魔兽

剪映产品负责人张逍然离职 | 36氪独家

没想到微信出的送礼功能，大家都还蛮喜欢

开业3个月排号突破2000+桌、获央视报道，烤鱼何以再次出圈？

都快2025年了，为什么韩国这飞机还会撞鸟？

「迈塔兰斯」获超亿元A+轮融资，建成全球首条超透镜量产交付产线｜硬氪首发

明星也逃不过孩子的“身高焦虑”，支撑起百亿生长激素市场｜早期项目

盐津铺子：量贩和爆款之后，该向什么要增长？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响