腾讯研究院AI速递 20240529

作者：腾讯研究院发布时间：2024-05-29

腾讯苹果英伟达生成式AI

生成式AI

一、苹果「芯」未来计划，宁死不用英伟达？自研芯片AI全家桶

1. 苹果坚持使用自研芯片，避免使用英伟达芯片，由于旧怨和技术自主的战略；

2. 苹果增产M2 Ultra处理器，用于自建AI服务器，尽管在AI性能上可能与英伟达数据中心级GPU存在差距；

3. 苹果使用自研芯片在自建数据中心提供AI服务，将面临性能和成本效益的挑战。

https://mp.weixin.qq.com/s/xFfBIYX4wQfYSVYD06KcoA

二、国产Open-Sora上新v1.1.0版本，全面支持国产AI算力

1. Open-Sora-Plan v1.1.0现支持使用国产AI芯片华为昇腾进行训练和推理；

2. 版本优化包括CausalVideoVAE结构改进和高质量视觉数据及caption的采用；

3. 实施视频生成能达到21秒长度，支持更复杂的动态变化和视频编辑功能。

https://mp.weixin.qq.com/s/g-1KAKzt80IkXcnUpNYLNA

三、 SignLLM：通过文字描述生成「手语」视频的多语言模型

1. SignLLM是首个多语言模型，可将文字描述转换为手语视频；

2. 引入了名为Prompt2Sign的多语言手语数据集，增强视频的准确性和自然性；

3. SignLLM应用于教育、医疗、法律和日常生活，提供高质量的手语翻译服务。

https://mp.weixin.qq.com/s/TcMHkXGUXbOvRVo_dFbx1A

四、性能对标Llama 3，算力消耗仅1/19！源2.0-M32大幅提升模算效率

1. 源2.0-M32模型具有37亿激活参数，性能可与Llama 3相媲美；所需算力仅为Llama 3的1/19；

2. 源2.0-M32采用基于注意力机制的门控网络技术，大幅提升模算效率；

3. 浪潮信息全面开源源2.0-M32，支持商用，降低企业使用成本，推动大模型普及。

https://mp.weixin.qq.com/s/yrT09IzWqKstdjigbAwcRA

五、多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

1. Cantor架构融合视觉与文本信息，避免决策幻觉，提升决策质量；

2. 在ScienceQA和MathVista数据集上，Cantor表现优于传统方法，具体提升分别为4.08%和5.9%；

3. 利用多模态专家模块进行决策生成与执行，增强模型的决策生成能力和执行效率。

https://mp.weixin.qq.com/s/YCqnAN8vEsP9N7vQ2HQjoA

六、法国 AI 初创公司推出 3D 版 PhotoRoom，并获得 AI Grant 投资

1. Doly应用通过手机简化3D视频制作，适用于电子商务和社交媒体广告；

2. 应用利用高斯光斑技术和AI，从静态图片重建逼真的3D模型；

3. 用户可从模板库选择场景，自定义视频效果，提升产品展示质量。

https://mp.weixin.qq.com/s/0WZPgt9a6ff8lxWxVMsMrA

七、 3D生成竞技场来了！比拼360°环绕视频，最强模型由你pick

1. 3DGen-Arena由复旦大学和上海AI Lab开发，提供一个公开、匿名的3D生成模型评测平台，包括文生3D和图生3D两个赛道；

2. 评测系统提供360°环绕视频并允许用户根据几何合理性、精细度、纹理质量、一致性等维度投票，支持与模型的直接互动；

3. 平台已集成19个开源3D生成模型，并在开放环境中使用超过1000个prompt进行综合评估。

https://mp.weixin.qq.com/s/VYdc4K-t9B7dYRGSoXWsLw

八、耳机要被 AI 颠覆了：只需看一眼，整个世界都是 TA 的声音

1. TSH系统由华盛顿大学开发，允许佩戴者通过目视锁定特定说话者，从而只听取该说话者的声音，过滤掉其他环境噪声；

2. 系统能够持续学习并适应被锁定说话者的声音，即使在复杂环境中移动时也能保持聚焦；

3. 研究团队计划将TSH系统扩展至支持多说话者识别，解决单一说话者限制，并增强对声音变化的适应性。

https://mp.weixin.qq.com/s/67HMJNoc1xIyx0Tu6D1QJQ

前沿科技

九、适应多形态多任务，最强开源机器人学习系统「八爪鱼」诞生

1. Octo, 基于Transformer的机器人学习系统，无需额外训练即可适应多种机器人形态和任务；

2. Octo能够接受不同的相机配置，通过语言指令或图像目标控制多种机器人；

3. Octo在开源机器人操控数据集上进行了预训练，是首个完全开源的通才机器人操控策略。

https://mp.weixin.qq.com/s/HPTfOlw25F5JcvlY-Vy9Tw

报告观点

十、三位中国AI创业者对话：我下次创业不想做AI了，而选择不被美国制裁的餐饮业

1. 张文表明，下一次创业他可能选择餐饮业，希望避开类似AI领域面临的美国制裁；

2. 徐冰指出中美在AI领域的主要差距在算力上，虽然现有差距大，但有可能通过投资缩小；

3. 刘庆峰强调，尽管中国在某些AI领域与美国差距不大，但需要更良性的商业生态来支持中小企业创新。

https://mp.weixin.qq.com/s/1kEdpYXe_aFSlU7hha7MGA

👇订阅下方合集，获取每日推送

近期资讯

2024-12-26

Linux时区配置

在使用Linux操作系统或者容器的时候，我们可能会发现时间差了8个小时，这就说明系统或者容器时区配置存在问题。

守望时空33 2024-12-25

华为推出FreeBuds Pro 4蛇年典藏版：自带灵动小蛇

快科技12月26日消息，华为FreeBuds Pro 4蛇年典藏版已经在京东平台上架，目前尚未公布售价。从目前信息来看，这次FreeBuds Pro 4蛇年典藏版有云杉绿、曜石黑两种配色可选，比前代选择更丰富。

2024-12-26

2024数据库编程大赛-八强决赛成绩揭晓

2024 第二届数据库编程大赛于 12 月 5 日正式开启初赛！由 NineData 和云数据库技术社区主办，华为云、Doris等协办单位和媒体共同举办。赛题回顾比赛要求选手设计一套SQL算法，只

NineData 2024-12-25

React Native 中的 Text 组件：全面解析

在 React Native 中，Text 组件是用于显示文本内容的核心组件之一。无论是简单的标签还是复杂的富文本，Text 组件都扮演着至关重要的角色。

我是区块链小学生 2024-12-25

【OpenHarmony】鸿蒙 UI开发之CircleIndicator

简介 CircleIndicator是一款UI组件库，为Tabs/Swiper容器提供了多种自定义风格的指示器效果展示：圆形指示器: 长条指示器: 横幅指示器: 三角指示器: 图标指示器: 携带中

塞尔维亚大汉 2024-12-25

InnoDB 的页分裂和页合并

InnoDB 的页分裂和页合并 InnoDB 是 MySQL 的一种存储引擎，以其高性能和高可靠性著称。在高并发的环境下，数据的插入、删除和更新操作不可避免地会引发页分裂和页合并。本文将深入探讨 In

提前退休了 2024-12-25

腾讯研究院AI速递 20240529

推荐体验

相关资讯

腾讯研究院AI速递 20240304

近期资讯

YiShaAdmin：一款基于.NET Core Web + Bootstrap的企业级快速开发框架

DevOps，CI，CD，自动化简单介绍

凯迪拉克女销售私收购车款“跑路” 有人转账26万无法提车

推荐2款开源、美观的WinForm UI控件库

Linux时区配置

华为推出FreeBuds Pro 4蛇年典藏版：自带灵动小蛇

2024数据库编程大赛-八强决赛成绩揭晓

React Native 中的 Text 组件：全面解析

【OpenHarmony】鸿蒙 UI开发之CircleIndicator

InnoDB 的页分裂和页合并

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响