生成式AI
一、 黄仁勋一口气解密三代GPU!「粉碎摩尔定律」打造AI帝国
1. 英伟达推出的Blackwell GPU在8年内将把1.8万亿参数的GPT-4训练能耗降低至1/350,推理能耗降至1/45000;
2. 英伟达惊人的产品迭代,直接原地冲破摩尔定律,每一代芯片性能均极大提升;
3. 英伟达利用加速计算和CUDA软件架构,极大提升计算速度和效率,支持全球大规模数据中心的AI应用。
https://mp.weixin.qq.com/s/MkkdFSGTKKkQ3PLq4wG8Fw
二、 next-token被淘汰?Meta实测「多token」训练方法,推理提速3倍
1. 多token预测方法提高模型样本效率和性能,推理速度提升至三倍;
2. 在代码生成和自然语言任务中,性能提升超过10%,尤其在13B参数模型上提升显著;
3. 多token训练减少了GPU内存使用,适用于大规模数据和多epochs训练,提升了归纳头(induction heads)和算法推理能力。
https://mp.weixin.qq.com/s/rUBktCIL6BgTAbdod72MrQ
三、 超越Devin!姚班初创OpenCSG出品,创大模型编程新世界纪录
1. StarShip CodeGen Agent在SWEBench测试中取得23.67%的成绩,超越Devin和Amazon,成为全球第二;
2. OpenCSG通过优化编程Agent和自适应教师模式,解决API冲突等问题,提升代码生成精度;
3. OpenCSG专注于编程Agent的创新开发和大型模型算法优化,推动大模型赋能软件开发,逐步实现自主化和高效能。
https://mp.weixin.qq.com/s/Us5S0vwj2KuNgwvprVX5mQ
四、 谷歌创新框架LANISTR:从非结构化数据,实现多模态学习
1. LANISTR框架通过基于掩码的多模态训练,提升模型在缺失模态数据中的学习能力;
2. 多模态融合编码器采用交叉注意力机制,增强各模态间的特征互补,提高信息整合效率;
3. 在MIMIC-IV和亚马逊数据集上,LANISTR模型在模态缺失情况下,分别提升了6.6%和14%的性能。
https://mp.weixin.qq.com/s/dicYO5bU5fIuPb0kIlyKOA
五、 不同数据集有不同的Scaling law?用压缩算法gzip来预测它
1. 数据集的句法复杂度显著影响Scaling law的参数;
2. gzip压缩率有效度量数据集复杂度,复杂度越高,计算最优边界越偏向数据大小;
3. 使用gzip压缩率预测Scaling law参数的新计算公式能更准确预测不同数据集的Scaling law。
https://mp.weixin.qq.com/s/sNQIe_jE30lciwP0uRhLEg
六、 斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库
1. Llama3-V 被质疑抄袭清华 MiniCPM-Llama3-V 2.5 的模型结构和代码;
2. Llama3-V 作者承认使用了 MiniCPM 的部分预训练组件,且未提供合理解释;
3. 面对质疑,虽然作者删除GitHub和HuggingFace项目,但社区强烈反应和质疑仍在持续。
https://mp.weixin.qq.com/s/nsp9tdS5SnX-7htsndKVcw
七、 「RULER」发现上下文长度虚标严重,32K性能合格的都不多
1. 英伟达新基准RULER评估10个大模型,显示大多数模型的有效上下文长度远低于声称的32K;
2. RULER基准测试涵盖13项任务,定义了“有效上下文长度”指标,评估模型处理长文本的实际能力;
3. GPT-4在4K长度下表现最佳,扩展到128K时性能下降最小(15.4%),而Mixtral是唯一在声称长度上保持良好性能的开源模型。
https://mp.weixin.qq.com/s/pNUT8_T5YMJXrzLbzUi9ww
八、 Nature重磅:全球首个全切片数字病理学模型GigaPath发布
1. GigaPath采用两阶段级联结构,结合LongNet架构,有效处理十亿像素级别的全切片数字病理学图像;
2. 在26项任务中,GigaPath在25项任务上表现领先,在18项任务中显著优于现有方法,尤其在癌症分型和病理组学任务中表现突出;
3. GigaPath模型和代码已开源,研究人员欢迎全球研究者共同探索和使用该模型。
https://mp.weixin.qq.com/s/oqnxcu15A3KCzyfs_8Q0-g
前沿科技
九、 Neuralink劲敌破纪录,接入4096个电极!脑机接口有望进入「5G」时代
1. Precision Neuroscience成功在人脑中植入4096个电极,打破Neuralink去年2048个电极的纪录;
2. 使用Layer 7超薄电极,通过微创插入方式,不刺穿大脑,显著减少损伤并提高数据传输效率;
3. Layer 7电极阵列具有高密度和可扩展性,实现高分辨率脑电信号传输,并通过机器学习进行信号解读。
https://mp.weixin.qq.com/s/AN7aJkhOxA3msU8yt6MjSg
报告观点
十、 麦肯锡:ChatGPT等生成式AI应用激增,大中华区有应用优势 ,增长最快
1. 生成式AI应用激增,65%的受访者在业务中使用生成式AI,与2023年的33%相比几乎翻倍;
2. 大中华区和亚太地区成为生成式AI应用增长最快的区域,主要因为技术环境和原生数字人口优势;
3. 企业使用生成式AI主要有三种方式:直接使用现成产品、通过数据与厂商合作微调模型、完全自主开发模型。
https://mp.weixin.qq.com/s/rmB4u80akH372BIcT_I91g
👇订阅下方合集,获取每日推送