近日,上海人工智能实验室组织了一场AI模型的高考能力测试,涵盖了语文、数学和英语三门科目。
在这次全卷测试中,共有七个AI模型参与,其中包括知名的GPT-4o。测试结果显示,阿里通义千问2-72B以303分的成绩位居榜首,而GPT-4o紧随其后,获得了296分。
虽然各AI模型在语文和英语科目上表现较好,但在数学科目上,它们的平均得分率仅为36%,几乎全军覆没。看来,即便是高级AI系统,在处理复杂的数学问题时也面临挑战。
因此,人类学生在面对数学难题时不必过于自责,不是不努力,而是真的太难了~
机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖AI大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。
AI大模型
机器之心Pro 2024-06-11
具体而言,在满分73分、及格线为43.8分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520(63分)>智谱清言(43分)>GPT-4o(41分)>豆包(40分)>文心4(30分)=百川…
中国指挥与控制学会 2024-07-10
上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试,结果表明,阿里通义千问2-72B排名第一,GPT-4o排名第二,书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。
人工智能通义千问
教育台 2024-07-04
数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。在高考数学新I卷评测排名中,字节豆包也排在前列。据悉,LLMeval是由复…
复旦
大力财经V 2024-06-16
OpenAI发布新模型GPT-4o mini,数学能力比GPT-4o强? 北京时间7月19日凌晨,OpenAI 突然宣布了新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 [图片] OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价格: GPT-4o mini的商用价格是每百万输入 tokens 0
OpenAI
302AI 2024-07-19
一个台风天的夜晚,葛双婷正在办公室内值晚班,突然一阵急促的电话铃声打破了寂静。电话那头传来了一位用户焦急的声音:“我今天加班,手机里的摄像头软件突然看不到家里的情况,也联系不上老人,你们能帮帮我吗?”
新华日报 2024-12-27
#年货节好物集市#在众多家电品牌中,容声以其高性价比在大容量冰箱市场中占有一席之地。此外,360°水润自然风可以持久滋润果蔬,而可视雷达感温则能准确捕捉温度变化并精准控温,使得食物营养和口感都能得到保存。
小米地瓜 2024-12-27
随着智能手机市场的不断发展,消费者对于旗舰机型的期望已经超越了单纯性能上的追求。现在,各大品牌都在竞相推出搭载骁龙8至尊版处理器的新手机。总之,这四款手机都将在各自领域发光发热,并为用户提供前所未有的极致体验。
中关村在线 2024-12-27
快科技12月27日消息,据“中国航天科技集团”官微发文,由中国航天科技集团六院北京航天动力研究所研制的氢氧旋转爆震火箭发动机完成了长时热试验。同时,该试验突破了氢氧旋转爆震燃烧室热防护技术,验证了长时工作下氢氧旋转爆震发动机的工作可靠性。
驱动之家 2024-12-27
昨天(26日),我国自主研发设计、建造的深远海多功能科学考察及文物考古船“探索三号”正式交付启航。它是我国首艘具有覆盖全球深远海探测,并具备冰区载人深潜支持能力的综合科考船。
千龙网 2024-12-27
26日下午,2024“科创引领·新质大庆”科技+产业对接大会在大庆市举行。会上举行了“大庆市科技成果转化对接平台”上线启动仪式和“科技+产业结对共建项目”签约仪式,并对科技创新成果转化重点扶持政策“科五条”进行了重点解读。
金台资讯 2024-12-27
2023年年末,人形机器人行业迎来两个标志性事件:当年11月,工业和信息化部印发《人形机器人创新发展指导意见》,首次将人形机器人作为一个独立行业给出政策导向。而对于这样夸张的作秀,也有其存在的价值——比如7月的上海WAIC上,主办方于世博展览馆门口展出人形机器人“十八金刚”,数量正好是英伟达大会上展示厂商数量的一倍。
21世纪经济报道 2024-12-27
农业科技是推进农业农村现代化、农业强国建设的重要驱动力,提高农业竞争力、推进农业强国建设必然意味着科技创新强国。农业科技整体实力已跨入世界第一方阵,相关科技论文竞争力指数和发明专利申请量均居全球第一位,在作物组学和遗传学、口粮新品种、农作物有害生物防控体系、耕地保护与地力提升技术、专用化大型家畜品种培育等领域取得了重大成就。
中国经济网 2024-12-27
26日,深远海多功能科学考察及文物考古船“探索三号”,在广州南沙交付启航。该船由海南省人民政府、三亚崖州湾科技城开发建设有限公司、中国科学院深海科学与工程研究所共同出资建造,由中国船舶集团广船国际有限公司自主研发设计并完成建造,具备完全自主知识产权,是我国首艘具有覆盖全球深远海(含极区)探测并具备冰区载人深潜支持能力的综合科考船。
北青网 2024-12-27
中国消费者协会今年5月发布的《中国消费者权益保护状况年度报告(2023)》指出,情绪消费已成为影响年轻一代消费决策的新热点。新型虚拟情绪消费中是否潜藏风险?
封面新闻 2024-12-27
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1