当前位置：首页|资讯|GPT-4

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

作者：AI新智界发布时间：2023-11-21

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

据站长之家 11 月 21 日报道，美国圣塔菲研究所的研究显示，GPT-4 在图形推理任务上的准确率仅为 33%，而多模态版本 GPT-4v 的表现更差，只有 25%。通过使用 ConceptARC 数据集，作者对 451 名人类受试者进行了图形推理任务测试，结果显示人类的平均正确率为 91%，远高于 GPT-4。

但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑，包括入门测试不足以筛选高质量受试者，样本的随机性受到争议，以及图像转换为数字矩阵可能改变概念等。

推荐体验

相关资讯

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。

量子位 2023-11-20

研究：GPT-4 在儿科疾病诊断中准确率仅为 17%

AI新智界 2024-01-06

谷歌让大模型更具“心智”，GPT-4任务准确率大增

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。具体来说，研究人员发现，现在的大模型，已经具备了在对话中推测人类“在想啥”的能力。那么，有了FaR的大模型，究竟拥有什么样的“心智”呢？

量子位 2023-10-14

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率飙升64%，还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出「元提示」新方法，能够让大模型成为全能「指挥家」，汇聚不同专家模型精华

GPT-4 斯坦福 OpenAI

新智元 2024-01-29

ChatGPT 诊断儿科疾病？新研究泼冷水：准确率仅 17%

IT之家 2024-01-04

近期资讯

美的BCD-185WM(E)冰箱：1199元享185升风冷无霜，节能静音新体验

#年货节好物集市#美的冰箱以其创新技术和卓越性能在家电市场中占据了重要的地位。美的冰箱的技术特点包括风冷无霜技术，该技术能够避免结霜问题，使食物保持新鲜；双系统双循环技术，独立控制冷藏室和冷冻室的温度，有效避免食物串味。此外，美的冰箱还以其节能低噪、小机身大容量等特点，满足了现代家庭对高效、环保和便捷生活的需求。

小米地瓜 2024-12-26

圆的面积计算：公式、应用与背后的数学故事

圆的面积是一个在数学中非常基本的问题，很多人可能在小时候就学过这个公式，但随着时间的推移，可能对它的理解和应用逐渐淡忘了。今天，就让我们来聊聊圆的面积怎么算，以及这个公式背后的故事和一些相关的知识。那么，为什么是r的平方呢？

新报观察 2024-12-26

华凌HR-589WKP冰箱：直降400元，一级能效风冷无霜，大容量新选择

#年货节好物集市#华凌冰箱以其高性价比在家电市场中占有一席之地。华凌冰箱，尤其是HR-589WKP型号，以其大容量、一级能效、风冷无霜技术以及PT净味系统等特点，满足了现代家庭对高效、节能和健康生活的追求。

小米地瓜 2024-12-26

景胜电子取得导电胶生产用切条装置专利，避免人工切割效率低下

金融界2024年12月26日消息，国家知识产权局信息显示，井冈山景胜电子科技有限公司取得一项名为“种导电胶生产用切条装置”的专利，授权公告号CN222200674U，申请日期为2024年5月。

金融界 2024-12-26

配骁龙8 Gen2！荣耀GT Pro真机现身

荣耀正式推出了首款独立后的GT新品，这是一款针对年轻人市场的产品。最近有消息称，这款手机还可能会推出Pro版本。

中关村在线 2024-12-26

荣耀赵明谈与华为影像技术的竞争，工程师称手机拍照只有2家可比

12月23日，荣耀举行了荣耀Magic7RSR保时捷设计及影像技术发布会，本次发布会，荣耀正式宣布Magic7系列将全面升级“大王影像”，旨在以人性化的摄影体验为核心目标，重塑摄影体验新境界。

IT之家 2024-12-26

启明星辰集团数据安全检查工具箱正式发布，“有理有据”搞定数据安全检查“痛点”！

随着我国《数据安全法》《个人信息保护法》《网络数据安全管理条例(征求意见稿)》等一系列法规政策相继出台与持续推进,国家监管部门和各大行业领域加大对数据安全工作重视程度,数据安全监管体系日益严密,数据安全检查成为网络安全管理的一项重要任务。

砍柴网 2024-12-26

Steam账号安全指南：如何修改密码与启用双重验证

在现代社会中，网络安全越来越受到重视，尤其是对于游戏玩家来说，保护自己的账户安全是非常重要的。Steam作为全球最大的数字游戏分销平台，拥有数以亿计的用户。为了保护自己的账号，定期更改密码是个不错的选择。一旦登录成功，你会看到界面右上角有一个“昵称”或者你的账户名。

新报观察 2024-12-26

共绘巫山红叶盛景｜华为Mate70红枫原色影像见证自然之美

日前，“巫山盛景入镜来”红枫原色影像分享沙龙在华为智能生活馆·重庆解放碑来福士店成功举办，本次活动由市民影像计划、华龙网、巫山县文旅委、巫山县林业局以及巫山文旅集团共同发起，旨在通过华为Mate70系列的镜头，捕捉巫山红叶的壮丽与细腻，还原自然之美，展现“两岸青山·千里林带”生态修复工程的辉煌成就。

金台资讯 2024-12-26

荣耀工程师称手机拍照只有 2 家可比，豪言背后的自信与底气

12月23日，荣耀举行了荣耀Magic7RSR保时捷设计及影像技术发布会。在发布会上，荣耀正式宣布Magic7系列将全面升级“大王影像”，旨在以人性化的摄影体验为核心目标，重塑摄影体验新境界。总之，整场发布会看下来，我们能够深刻感受到荣耀在影像技术方面确实取得了非常耀眼的成果。

IT之家 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1