生成式AI
一、 微软、OpenAI投资1000亿美元,打造「星际之门」超级计算机
1. 微软和OpenAI计划投资超过千亿美元建设「星际之门」超级计算中心,预计2028年启动,专注于AI技术发展;
2. 该项目对电力的需求极高,预计需要的电力高达5千兆瓦,标志着前所未有的能源消耗水平;
3. 「星际之门」旨在推进人工智能的极限,包括数百万服务器芯片的部署,面临技术挑战如芯片过热和能源需求。
https://mp.weixin.qq.com/s/OXEJJIPnPec9Jchu7P_zMg
二、 百亿tokens免费额度,清华系明星AI公司无问芯穹的羊毛薅起来
1. 清华系AI公司无问芯穹宣布从4月起提供百亿tokens免费额度,支持企业与个人开发者;
2. 无穹Infini-AI平台支持多模型与多芯片之间的软硬件联合优化和统一部署,降低AI应用落地成本;
3. 无问芯穹致力于解决大模型行业的算力难题,通过优化算力性价比,促进大模型的广泛应用和发展。
https://mp.weixin.qq.com/s/ZflCA5wu0W6b7o6cdH8gHA
三、 OpenAI首次展示音频模型Voice Engine,生成的声音太逼真了!
1. Voice Engine可以根据15秒参考声音生成高清晰度、连贯性强、音色自然的音频;
2. 该技术应用于多个领域,包括帮助失去语言能力的人恢复发音、儿童教育有声读物生成、多语言视频翻译等;
3. OpenAI于2022年底开发Voice Engine,目前处于小范围测试阶段,考虑到音频造假难度,未全面公测。
https://mp.weixin.qq.com/s/ErMhYBEjjDMpJfPlj9NiIw
四、 马斯克旗下X.ai在官网宣布,未来几天内即将发布Grok-1.5
1. Grok-1.5将在数学、代码生成能力上大幅提升,性能接近GPT-4,特别在MATH和GSM8K基准测试中表现优异;
2. 支持更长上下文处理,可处理长达128K的长上下文,内存容量增加16倍,改善了长文档信息理解;
3. 基于JAX、Rust和Kubernetes的自定义分布式训练框架,优化了训练作业的可靠性和运行效率,同时Grok-1已正式开源。
https://mp.weixin.qq.com/s/hS68K4diVW065H2XBFRHNA
五、 一手游400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%
1. 腾讯游戏在GDC展示了一款手游含400+个AI角色,通过大规模强化学习AI训练系统降低了90%的训练成本和时间;
2. 《火影忍者》手游使用自博弈训练方法优化AI角色,实现角色性格多样化和战斗平衡性;
3. 技术创新还包括移动端光追、144帧渲染等,及跨平台开发管线管理,提升了游戏画面的写实度和沉浸感。
https://mp.weixin.qq.com/s/Z4aVoa1x2pL9v_8cT5B74Q
六、 统一角色、百变场景,视频生成器PixVerse 超强一致性成「杀招」
1. PixVerse的「角色-视频」功能可以生成具有一致性的动态视频,保持角色面部和表情的准确性;
2. 工具简化了视频制作过程,允许用户通过简单步骤快速创建丰富背景和动态角色的视频;
3. PixVerse强调在保持角色一致性方面的性能,已在用户和专业评测中得到认可,展示了其在视频生成领域的技术优势。
https://mp.weixin.qq.com/s/n_r-YYw42K3REIk9Bd8bvA
七、 智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业
1. 智谱AI投资清程极智,一家致力于构建高效AI系统软件的清华系公司,标志着其在大模型生态的投资超过13家企业;
2. 清程极智专注于国产算力智能模型的大规模训练平台系统,旨在推进大模型训练与推理系统的国产化和技术自主创新;
3. 该公司背后是一支清华系团队,涵盖高性能计算、AIQT边缘计算等领域,且拥有20人左右的研发团队规模。
https://mp.weixin.qq.com/s/JJpHRwLKkczzlijYnflg8Q
前沿科技
八、 非侵入设备贴在脖子上,就能代替人类发声,研究登《自然通讯》
1. 研究人员开发了一种AI驱动的非侵入式可穿戴发声贴片,可粘附在脖子上帮助发声;
2. 该技术通过测量颈部运动并将信号转换为语音,适用于受伤或患有声带麻痹疾病的人;
3. 目前原型AI模型能从五个预设句子中选择发声,研究团队计划在3-5年内生产出一种可行的医疗设备。
https://mp.weixin.qq.com/s/HI6Dojdpb2LMb5_-fBDs_g
九、 恐怖谷!哥大华人开发的「人脸机器人」,照镜子自主模仿人类表情超逼真
1. 哥伦比亚大学华人团队开发的人脸机器人Emo能预测并模拟人类表情,实现眼神交流,提高非语言交流的真实性;
2. Emo通过自我监督学习框架训练,配备26个执行器和高分辨率摄像头,能精确捕捉和模拟复杂的面部动作;
3. 研究展示了Emo的技术进步,包括逼真模拟人类表情和预测表情的能力,未来计划整合语言交流功能,如接入大模型如ChatGPT。
https://mp.weixin.qq.com/s/h-2LOjLNX3jry-_ralbNfg
报告观点
十、 吴恩达:别光盯着GPT-5,用GPT-4做智能体可能提前达到GPT-5效果
1. 吴恩达强调AI智能体工作流的潜力,指出基于GPT-3.5构建的智能体在某些应用中表现优于GPT-4;
2. 介绍了智能体工作流的四种设计模式:反思、工具使用、规划、和多智能体协作,这些模式提高了AI的迭代能力和输出质量;
3. 吴恩达认为,利用智能体工作流,即使在当前的GPT-4上也可能达到GPT-5预期的效果,这标志着AI发展中的一个重要趋势。
https://mp.weixin.qq.com/s/WOI-owwovML5g2olnO28GQ
点击下方#腾讯研究院AI速递合集 查看往期内容