当前位置：首页|资讯|GPT-4

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

作者：AI新智界发布时间：2023-11-21

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

据站长之家 11 月 21 日报道，美国圣塔菲研究所的研究显示，GPT-4 在图形推理任务上的准确率仅为 33%，而多模态版本 GPT-4v 的表现更差，只有 25%。通过使用 ConceptARC 数据集，作者对 451 名人类受试者进行了图形推理任务测试，结果显示人类的平均正确率为 91%，远高于 GPT-4。

但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑，包括入门测试不足以筛选高质量受试者，样本的随机性受到争议，以及图像转换为数字矩阵可能改变概念等。

推荐体验

相关资讯

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。

量子位 2023-11-20

研究：GPT-4 在儿科疾病诊断中准确率仅为 17%

AI新智界 2024-01-06

谷歌让大模型更具“心智”，GPT-4任务准确率大增

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。具体来说，研究人员发现，现在的大模型，已经具备了在对话中推测人类“在想啥”的能力。那么，有了FaR的大模型，究竟拥有什么样的“心智”呢？

量子位 2023-10-14

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率飙升64%，还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出「元提示」新方法，能够让大模型成为全能「指挥家」，汇聚不同专家模型精华

GPT-4 斯坦福 OpenAI

新智元 2024-01-29

ChatGPT 诊断儿科疾病？新研究泼冷水：准确率仅 17%

IT之家 2024-01-04

近期资讯

大话东游，这个冬天ChinaTravel更火了

“就算是反应迟钝的人，估计也能感觉到，现在入境游是真的火了！”

显微一线观察 2024-12-26

2024年十大财务造假公司

在2024年监管层查处的财务造假案中，恒大地产因两年虚增收入超5600亿元位列榜首

读数一帜 2024-12-26

上市累计涨超82%，毛戈平带「活」国产美妆？| 氪金·大事件

上市之后，也并非坦途。

陈思竹 2024-12-26

即梦对阵可灵，重演抖音反超快手？

快手可灵，只是抖音即梦的下一个目标罢了。

蓝洞商业 2024-12-26

像素绽放PixelBloom（AiPPT.com）CEO赵充：未来95%的用户都会用AI原生的方式写PPT丨超级观点

打造新一代AI办公产品全家桶。

晓曦 2024-12-26

Android Gradle 基础

Android Gradle 是 Android 项目的构建工具，它基于 Gradle 构建系统，为 Android 应用的构建、测试、发布提供支持。Gradle 配置文件通常分为两个层级：项目级别的

白瑞德 2024-12-26

java 引入openCV,定时任务执行报错java.lang.UnsatisfiedLinkError: 'long org.opencv.imgcodecs

错误如下前因今天遇到一个奇怪的问题，测试类执行正常，SpringBoot 定时任务执行则报错，网上找了好多原因，比较靠谱的是： System.load 只加载一次，SpringBoot 定时任务

马艳泽 2024-12-26

科氪 | 英特尔酷睿ULTRA 7系CPU加持，ThinkPad X1 Carbon开箱体验

ThinkPad X1 Carbon 258v高性能便携商务本。

科氪 2024-12-26

人生太累的原因：身边有太多消耗你的人

合理投资人际关系，远离消耗你的人。

张良计 2024-12-26

“还没过安检票上的字都快磨没了”，比外卖小票还劣质的机票让打工人无语了

“比公司厕纸还薄”

Vista氢商业 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1