InfoQ 研究中心本研究围绕语义理解、文学创作、知识问答、逻辑推理、编程、上下文理解、语境感知、多语言处理及多模态交互等十大核心领域,对包括 ChatGPT-4、文心一言专业版、通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 和豆包在内的十款热门模型进行了全面评估,测试题目数量超过 3000 道。...【查看原文】
InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。另外,本次研究特别关注了技术视角中大模型产品的编程能力,同时也专门设置了关于中文语境的特色测试题目, 如方言测试、中文特色推理、对对联等。InfoQ 研究中心希望可以通过本次测评帮助更多技术领域同仁获得对于中外大模型产品能力的逻辑认知,以帮助大家在 AGI 创业方向选择、工作实际应用等方面获得最新认知。
大语言模型天工大模型VicunaChatGPTClaude
InfoQ研究中心 2023-05-29
InfoQ研究中心 2023-06-06
该报告为《AI大模型专题:大语言模型能力测评报告2024》,共计43页,由极客传媒出品。报告指出,多家企业和机构按照相关规定完成备案和变更手续后,对公众全面开放,标志着大模型发展进入新阶段,加速推动大模型产业化应用。
AI大模型大语言模型
烟树晚雁 2024-01-23
事实上,无论是中文创意写作,还是语义理解、中文知识问答,这些题目都主要反应的是大语言模型产品对文字的基础认知和学习能力,而我们从测评结果中清晰的看到,百度文心一言各方面数据表现优异,各项能力评分都位居Top2…
大语言模型文心一言百度
InfoQ 2023-05-29
近日国内与人工智能领域相关的利好政策陆续释放,中央召开的相关会议强调“未来要重视通用人工智能发展,营造创新生态。”《北京市促进通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》围绕五大方向提出 21 项具体措施,包括“开展大模型创新算法及关键技术研究”,“加强大模型训练数据采集及治理工具研发”等,同时面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理等领域拓展应用场景,以抢抓大模型发展机遇,推动通用人工智能领域实现创新引领,中国大模型技术产业迎来了一波前所未有的发展契机,百度、阿
大语言模型人工智能医疗金融
郭太侠 2023-05-31
千平大店频现。
红餐网 2024-12-30
金饰市场“旺人气不旺量” ,投资产品热度走高
36氪的朋友们 2024-12-30
游戏圈“饭圈化”,早就开始了。
DataEye 2024-12-30
解决痛点并非没有办法。
巴伦周刊 2024-12-30
作为低空经济的重要载体,今年以来,eVTOL一直被热切关注。随之而来的是政策托举、融资升温。
星巴克能进行“下沉”自我救赎?
鲸商 2024-12-30
CEO工资竟然不是最高的??
量子位 2024-12-30
我的设计确实是性感的,但它不是只表达了性感。
一条 2024-12-30
上市成为新茶饮们的最终归宿。
定焦One 2024-12-30
“资源有限的话,智能驾驶和理想同学我也不会二选一,我会削减其他的投入”
电厂 2024-12-30
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1