当前位置:首页|资讯|腾讯|苹果|英伟达|生成式AI

腾讯研究院AI速递 20240529

作者:腾讯研究院发布时间:2024-05-29

生成式AI

一、 苹果「芯」未来计划,宁死不用英伟达?自研芯片AI全家桶

1. 苹果坚持使用自研芯片,避免使用英伟达芯片,由于旧怨和技术自主的战略;

2. 苹果增产M2 Ultra处理器,用于自建AI服务器,尽管在AI性能上可能与英伟达数据中心级GPU存在差距;

3. 苹果使用自研芯片在自建数据中心提供AI服务,将面临性能和成本效益的挑战。

https://mp.weixin.qq.com/s/xFfBIYX4wQfYSVYD06KcoA

二、 国产Open-Sora上新v1.1.0版本,全面支持国产AI算力

1. Open-Sora-Plan v1.1.0现支持使用国产AI芯片华为昇腾进行训练和推理;

2. 版本优化包括CausalVideoVAE结构改进和高质量视觉数据及caption的采用;

3. 实施视频生成能达到21秒长度,支持更复杂的动态变化和视频编辑功能。

https://mp.weixin.qq.com/s/g-1KAKzt80IkXcnUpNYLNA

三、 SignLLM:通过文字描述生成「手语」视频的多语言模型

1. SignLLM是首个多语言模型,可将文字描述转换为手语视频;

2. 引入了名为Prompt2Sign的多语言手语数据集,增强视频的准确性和自然性;

3. SignLLM应用于教育、医疗、法律和日常生活,提供高质量的手语翻译服务。

https://mp.weixin.qq.com/s/TcMHkXGUXbOvRVo_dFbx1A

四、 性能对标Llama 3,算力消耗仅1/19!源2.0-M32大幅提升模算效率

1. 源2.0-M32模型具有37亿激活参数,性能可与Llama 3相媲美;所需算力仅为Llama 3的1/19;

2. 源2.0-M32采用基于注意力机制的门控网络技术,大幅提升模算效率;

3. 浪潮信息全面开源源2.0-M32,支持商用,降低企业使用成本,推动大模型普及。

https://mp.weixin.qq.com/s/yrT09IzWqKstdjigbAwcRA

五、 多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图

1. Cantor架构融合视觉与文本信息,避免决策幻觉,提升决策质量;

2. 在ScienceQA和MathVista数据集上,Cantor表现优于传统方法,具体提升分别为4.08%和5.9%;

3. 利用多模态专家模块进行决策生成与执行,增强模型的决策生成能力和执行效率。

https://mp.weixin.qq.com/s/YCqnAN8vEsP9N7vQ2HQjoA

六、 法国 AI 初创公司推出 3D 版 PhotoRoom,并获得 AI Grant 投资

1. Doly应用通过手机简化3D视频制作,适用于电子商务和社交媒体广告;

2. 应用利用高斯光斑技术和AI,从静态图片重建逼真的3D模型;

3. 用户可从模板库选择场景,自定义视频效果,提升产品展示质量。

https://mp.weixin.qq.com/s/0WZPgt9a6ff8lxWxVMsMrA

七、 3D生成竞技场来了!比拼360°环绕视频,最强模型由你pick

1. 3DGen-Arena由复旦大学和上海AI Lab开发,提供一个公开、匿名的3D生成模型评测平台,包括文生3D和图生3D两个赛道;

2. 评测系统提供360°环绕视频并允许用户根据几何合理性、精细度、纹理质量、一致性等维度投票,支持与模型的直接互动;

3. 平台已集成19个开源3D生成模型,并在开放环境中使用超过1000个prompt进行综合评估。

https://mp.weixin.qq.com/s/VYdc4K-t9B7dYRGSoXWsLw

八、 耳机要被 AI 颠覆了:只需看一眼,整个世界都是 TA 的声音

1. TSH系统由华盛顿大学开发,允许佩戴者通过目视锁定特定说话者,从而只听取该说话者的声音,过滤掉其他环境噪声;

2. 系统能够持续学习并适应被锁定说话者的声音,即使在复杂环境中移动时也能保持聚焦;

3. 研究团队计划将TSH系统扩展至支持多说话者识别,解决单一说话者限制,并增强对声音变化的适应性。

https://mp.weixin.qq.com/s/67HMJNoc1xIyx0Tu6D1QJQ

前沿科技

九、 适应多形态多任务,最强开源机器人学习系统「八爪鱼」诞生

1. Octo, 基于Transformer的机器人学习系统,无需额外训练即可适应多种机器人形态和任务;

2. Octo能够接受不同的相机配置,通过语言指令或图像目标控制多种机器人;

3. Octo在开源机器人操控数据集上进行了预训练,是首个完全开源的通才机器人操控策略。

https://mp.weixin.qq.com/s/HPTfOlw25F5JcvlY-Vy9Tw

报告观点

十、 三位中国AI创业者对话:我下次创业不想做AI了,而选择不被美国制裁的餐饮业

1. 张文表明,下一次创业他可能选择餐饮业,希望避开类似AI领域面临的美国制裁;

2. 徐冰指出中美在AI领域的主要差距在算力上,虽然现有差距大,但有可能通过投资缩小;

3. 刘庆峰强调,尽管中国在某些AI领域与美国差距不大,但需要更良性的商业生态来支持中小企业创新。

https://mp.weixin.qq.com/s/1kEdpYXe_aFSlU7hha7MGA

👇订阅下方合集,获取每日推送


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1