当前位置:首页|资讯|腾讯|生成式AI

腾讯研究院AI速递 20240605

作者:腾讯研究院发布时间:2024-06-05

生成式AI

一、 AMD官宣年更芯片!新款MI325X重磅发布,比H200快30%

1. AMD宣布芯片年更计划,推出MI325X加速器,称计算速度比 H200 快 30%,计划2024年第四季度上市;

2. AMD发布第五代EPYC Turin处理器,具有192个核心和384个线程,在AI工作负载上比英特尔Xeon快5.4倍;

3. AMD推出笔记本Ryzen AI 300系列处理器,集成XDNA 2 AI加速器,性能达50 TOPS,显著提升AI和游戏性能。

https://mp.weixin.qq.com/s/YRLc0YRn2MkYNJ9BqGpmJg

二、 再战Transformer!原作带队Mamba 2来了,性能狂飙8倍

1. Mamba 2通过SSD框架改进了状态空间模型(SSM),实现了训练效率提升2-8倍,并在语言建模上与Transformer竞争;

2. Mamba 2引入了新的噪声采样技术和流训练方法,优化了矩阵乘法算法,显著提高了训练速度和状态容量;

3. Mamba 2结合注意力层和SSM,展示了在多任务和长序列处理上的优越性能,证明了两者的互补性。

https://mp.weixin.qq.com/s/31t6pJqcXrZDjT6XiJZC_g

三、 Stable Diffusion 3宣布开源,对标闭源标杆Midjourney能力

1. Stability AI宣布Stable Diffusion 3将在6月12日开源,采用20亿参数的Medium模型,优化照片真实感、样式和图片质量;

2. Stable Diffusion 3使用Diffusion Transformer架构,结合噪声采样技术和流训练方法,提高训练效率和文本语义理解;

3. 尽管经历管理层变动和财务危机,Stability AI成功发布Stable Diffusion 3,预计获得AMD赞助并可能被全资收购。

https://mp.weixin.qq.com/s/FgOT3vwghZhhCCmANo0D7Q

四、 单个4090可推理,2000亿稀疏大模型「天工MoE」开源

1. 昆仑万维开源2000亿参数的稀疏大模型Skywork-MoE,支持单台4090服务器推理,大幅降低推理成本;

2. Skywork-MoE采用Gating Logits归一化和自适应Aux Loss优化算法,提升模型性能和泛化能力;

3. Skywork-MoE通过Expert Data Parallel和非均匀切分流水并行设计,实现高效大规模分布式训练。

https://mp.weixin.qq.com/s/h5bxuWca65t3LsQwqGq-Og

五、 超强研究阵容!全新强化学习框架RL4VLM,让多模态模型学会打扑克

1. RL4VLM采用直接从环境中获取奖励的强化学习框架,无需人类反馈,赋予多模态模型决策能力;

2. 在多模态任务评测中,RL4VLM在视觉语义推理和决策任务中表现优于GPT-4v Gemini和传统监督微调方法;

3. 研究团队包括图灵奖得主LeCun、UC伯克利教授Sergey Levine和马毅、ResNeXt和DiT作者谢赛宁。

https://mp.weixin.qq.com/s/bAf-5NzOD3fdTwYzdKsELw

六、 NVIDIA 在 GDC 2024 推出全新数字人技术和 RTX SDK

1. NVIDIA推出数字人技术,包括NVIDIA Avatar Cloud Engine(ACE)和NVIDIA NeMo,提供逼真的面部动画、语音识别和文本转语音功能;

2. RTX全局照明(RTXGI)2.0 SDK通过AI实现实时路径追踪和光线追踪的间接照明,提升游戏画质和性能;

3. 新的渲染算法神经辐射缓存(NRC)和空间哈希辐射缓存(SHaRC)优化全局照明,兼容DirectX和Vulkan,提升场景动态处理能力。

https://mp.weixin.qq.com/s/q3_vU3xaxasVc36fkqLoVw

七、 Adobe推出超分辨率,细节丰富视频模型VideoGigaGAN

1. Adobe和马里兰大学推出VideoGigaGAN,解决视频超分辨率中的时间连贯性和细节丰富性问题;

2. VideoGigaGAN通过添加时序卷积和自注意力层,将GigaGAN从2D图像模型扩展为3D视频模型,提高时间一致性;

3. 引入光流引导模块,利用光流估计和反向变形层,确保超分辨率过程中保持特征的空间一致性和高频细节。

https://mp.weixin.qq.com/s/9kkWGUojt_E0zVO8okk9rg

八、 港大FlashST:简单通用的智慧交通时空预测模型 | ICML 2024

1. FlashST框架通过轻量级时空提示网络和分布映射机制,提高了预训练模型在不同下游交通预测场景中的泛化能力;

2. 时空提示网络包含上下文提取和依赖性建模,有效捕捉复杂时空特征,增强模型对新数据的适应性;

3. 分布映射机制对齐预训练和下游数据分布,促进知识转移,使模型在多种城市交通数据集中表现优异。

https://mp.weixin.qq.com/s/xQ7nAsmEGweksc-rqx5npw

前沿科技

九、 继英伟达earth2之后,微软发布大气AI基础模型Aurora

1. 微软发布的Aurora大气AI基础模型能在不到一分钟内生成5天的全球空气污染预测和10天的高分辨率天气预报,表现优于传统模拟工具和专业深度学习模型;

2. Aurora通过整合超过一百万小时的各种天气和气候数据进行训练,能够在广泛的预测任务中表现出色,包括极端天气和数据稀疏地区;

3. Aurora的多功能性和高效性使其能够预测多种大气变量,并在大气化学和空气污染预测方面表现优异,显著提高了环境预测的准确性和效率。

https://mp.weixin.qq.com/s/Exp47NMzelNUSzxy49fnXw

报告观点

十、 英伟达 Jim Fan:具身智能的难点不是硬件,而是Foundation Agent

1. 具身智能的核心挑战在于构建基础智能体(Foundation Agent),而非硬件;

2. 英伟达通过项目如Mine Dojo和Voyager,展示了在虚拟环境中训练智能体并转移技能到现实世界的潜力;

3. Metamorph和Eureka等项目展示了跨形态和跨环境的通用策略,强调了域随机化和强化学习在实现具身智能中的重要性。

https://mp.weixin.qq.com/s/DF0GBx99vodq0dYM98iRFA

👇订阅下方合集,获取每日推送


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1