据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
“就算是反应迟钝的人,估计也能感觉到,现在入境游是真的火了!”
显微一线观察 2024-12-26
在2024年监管层查处的财务造假案中,恒大地产因两年虚增收入超5600亿元位列榜首
读数一帜 2024-12-26
上市之后,也并非坦途。
陈思竹 2024-12-26
快手可灵,只是抖音即梦的下一个目标罢了。
蓝洞商业 2024-12-26
打造新一代AI办公产品全家桶。
晓曦 2024-12-26
Android Gradle 是 Android 项目的构建工具,它基于 Gradle 构建系统,为 Android 应用的构建、测试、发布提供支持。Gradle 配置文件通常分为两个层级:项目级别的
白瑞德 2024-12-26
错误如下 前因 今天遇到一个奇怪的问题,测试类执行正常,SpringBoot 定时任务执行则报错,网上找了好多原因, 比较靠谱的是: System.load 只加载一次,SpringBoot 定时任务
马艳泽 2024-12-26
ThinkPad X1 Carbon 258v高性能便携商务本。
科氪 2024-12-26
合理投资人际关系,远离消耗你的人。
张良计 2024-12-26
“比公司厕纸还薄”
Vista氢商业 2024-12-26
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1