本周带来的 10 个 SOTA 模型项目分别用于聊天对话、目标跟踪、语音生成等;4 个工具项目用于LLM模型部署、LLM模型选型、AIGC算法部署。
IBM开源Dromedary(单峰骆驼),基于自对齐方法训练大大降低人类监督成本,模型权重已开放
ChatGPT 等聊天机器人通过人类注释进行监督微调并基于人类反馈来进行强化学习。然而获取人类监督的成本不低,还存在涉及质量、可靠性等相关问题。IBM 等提出 SELF-ALIGN(自对齐),结合原则驱动式推理和 LLM 生成能力,大大降低人类监督工作量,并将 SELF-ALIGN 过程应用于基础语言模型 LLaMA-65b 训练得到 Dromedary(单峰骆驼),在 TruthfulQA 数据集上甚至取得超越 GPT-4 的成绩。当前项目发布模型权重和使用的人工注释,并提供了聊天机器人 demo 以及完整的训练过程。
获取资源:
https://sota.jiqizhixin.com/project/dromedary
开源项目BigCode发布155亿参数代码生成模型StarCoder ,在80多种编程语言的数据上进行训练
BigCode 是 HuggingFace 与 ServiceNow Research 联合发起了一个全新的代码大模型项目 BigCode,旨在围绕 AI 代码生成工具建立一个开放社区并开发大语言模型代码。近日该项目开源 155 亿参数代码生成模型 StarCoder ,在 80 多种编程语言的数据上训练,采用了多查询注意力和 8192 个 Token 的上下文窗口,使用了 1 万亿个 Token 的填充中间目标。StarCoder 在 HumanEval 基准测试中的一次通过率达到了 40.8%,可以充当技术助手。当前该项目开源模型文件,支持 Huggingface 在线推理,可调用 transformer 库进行推理并提供相关代码示例。
获取资源:
https://sota.jiqizhixin.com/project/starcoder
MosaicML推出MPT系列模型,70亿参数版本性能测试中媲美LLaMA,权重已开放、可商用
MPT-7B 是 MosaicML 开源的基础模型,在 1T 的文本和代码 tokens 上从头开始训练,性能测试上与 LaMA-7B 相当,可用于商业用途。MPT-7B 在 MosaicML 平台上花费约为 20 万美元,并用时 9.5 天时间训练得到,无需人工干预。当前 MPT-7B 权重已发布,可供开发者训练、微调和部署自己的私有 MPT 模型。除 MPT-7B 外,该项目团队还发布了三个微调模型:MPT-7B-Instruct、MPT-7B-Chat 和 MPT-7B-StoryWriter-65k+,其中最后一个的上下文长度为 65k tokens。
获取资源:
https://sota.jiqizhixin.com/project/mpt-7b
开源大型语言模型项目RedPajama发布RedPajama-INCITE模型系列,包括基础模型、指令微调模型和聊天模型
几周前,开源大型语言模型 RedPajama 项目发布了基于 LLaMA 论文的 RedPajama 基础数据集,高达 5 TB 并已被下载数百次,用于训练 MPT、OpenLLaMA、OpenAlpaca 等模型。近日,该项目发布 RedPajama-INCITE 模型,模型参数为 3B 和 7B,包括基础模型、指令微调模型和聊天模型。该模型在 RedPajama 基础数据集上训练得到,允许在研究和商业应用中使用。
获取资源:
https://sota.jiqizhixin.com/project/redpajama-incite
浙大等提出基于ChatGPT的多模态AI系统AudioGPT,可在多轮对话中理解和生成语音、音乐等音频内容
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
目前的大型语言模型没有能力处理复杂的音频信息或进行口语对话,该研究提出了 AudioGPT,通过一系列基础模型实现了语音转文本及语音合成等任务,并与 ChatGPT 进行级联,以此实现在多轮对话中理解和生成语音、音乐、声音以及说话者特写。项目开源了一系列热门基础模型权重,涵盖语音、音频、文本到歌曲生成、说话头像等任务,例如语音识别模型 Whisper、Conformer、音频编辑 Make-An-Audio 等。
获取资源:
https://sota.jiqizhixin.com/project/audiogpt
Stability AI推出新的文本到图像生成模型DeepFloyd IF,可生成照片级图像质量,还能准确将文字放于画面的指定位置
Stability AI 推出新的文本到图像生成模型,可生成照片级的图像质量是照片级,同时可准确绘制文字、准确理解空间关系。使用 DeepFloyd IF,可以把文字放在画面中的指定位置,例如将霓虹灯招牌、街头涂鸦中的文字以合适的字体、风格、排版呈现在合理位置。DeepFloyd IF 基于扩散模型,负责理解文字的部分从 OpenAI 的 CLIP 换成了谷歌 T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。当前 DeepFloyd IF 可在 Colab、Huggingface Space 在线试用;可在本地运行,实现零试图像到图像转换、文本到图像生成、图像超分辨率,并提供详细运行步骤、使用示例。
获取资源:
https://sota.jiqizhixin.com/project/deepfloyd-if
斯坦福团队开源Lamini,可在各类硬件上原生部署任意大型语言模型
斯坦福的开发团队发布 Lamini,供开发人员使用 OpenAI、EleutherAI 等开源基础模型快速构建定制化模型。基于基础模型构建定制化模型,是一个复杂且耗时的过程。针对这个问题,Lamini 将微调封装成一种服务,开发者可轻松将 GPT-3 微调成 ChatGPT。Lamini 是一个 LLM 引擎,开发人员只需使用 Lamini 库中的几行代码,就能在大型数据集上训练出高性能的 LLM。Lamini 库涵盖对机器学习模型的多种优化,包括简单的优化(例如消除模型「幻觉」)和更具挑战性的优化(例如 RLHF)。
获取资源:
https://sota.jiqizhixin.com/project/lamini
OpenMMLab开源基于PyTorch的图像和视频编辑生成工具箱mmagic,涵盖全面先进的AIGC算法
mmagic 是一个先进、全面的 AIGC 开源算法工具库,由 OpenMMLab 开源,适用于文本到图像扩散生成模型、三维重建、图像修复等任务。支持基于 Stable Diffusion 和 Disco Diffusion 的图像生成、Dreambooth、DreamBooth LoRA 等 Finetune 方式以及使用 ControlNet 实现文本到图像生成的可控性。项目提供详细的开发指导文档以及相关模型权重下载。
获取资源:
https://sota.jiqizhixin.com/project/mmagic
南方科技大学提出Track Anything Model (TAM),在视频中实现高性能的交互式跟踪和分割
Track Anything Model 旨在解决 SAM 无法很好应用在视频中的问题,它可以实现交互式视频跟踪和分割。Track Anything 是基于 SAM 的二次创作模型,它拥有强大的视频目标跟踪能力,并提供用户友好的操作界面,只需要简单的点击操作,就可以任意地跟踪用户感兴趣的一个或多个目标区域,还可以根据用户需求灵活调整目标对象,并自带用户纠错和视频编辑功能。通过 Track Anything,使用者可以轻松地完成视频中单个或多个目标的精确标注,视频特定区域提取及编辑,以及长时 / 转场视频中的目标跟踪。当前项目开源源码,支持在本地部署以及 HuggingFace 试用。
获取资源:
https://sota.jiqizhixin.com/project/track-anything
亚马逊发布LLM实用指南资源列表LLMsPracticalGuide,为研究者和开发者提供LLM在各种NLP任务上的最佳实践方法
LLMsPracticalGuide 为在下游自然语言处理(NLP)任务中使用大型语言模型(LLM)的从业者和终端用户提供了一份全面而实用的指南。LLMsPracticalGuide 从模型、数据和下游任务的角度对 LLM 的使用进行了讨论和深入的分析。首先,对当前的 GPT 和 BERT 风格的 LLM 进行了介绍和简要总结。然后,讨论了预训练数据、训练数据和测试数据的影响。以及详细讨论了大型语言模型在各种自然语言处理任务中的使用和非使用案例,如知识密集型任务、传统的自然语言理解任务、自然语言生成任务、突发能力以及对特定任务的考虑。该指南为研究人员和开发者提供有关 LLM 的洞见以及在各种 NLP 任务上使用 LLM 的最佳实践方法。
获取资源:
https://sota.jiqizhixin.com/project/llmspracticalguide
基于LLaMA指令微调构建的中文语言模型Chinese-Vicuna,可在个人数据集上训练推理对话系统、资源要求低
Chinese-Vicuna 由各种高质量的开源 instruction 数据集,结合 alpaca-lora 代码训练而来,模型基于开源的 LLaMA 7B 构建。项目开源了 lora 微调的中文 llama 模型从数据处理到部署的全流程,同时支持 colab 等云部署,以及 c++转化和在 cpu 端进行快速推理,对训练资源要求低。该项目可帮助使用者快速引入自己的数据,训练出属个人推理对话系统,同时提供了从数据处理到推理的详细指导。
获取资源:
https://sota.jiqizhixin.com/project/chinese-vicuna
StabilityAI基于RLHF开源的大型语言模型StableVicuna,基于小羊驼Vicuna-13B模型实现,已开放权重下载
StableVicuna 由 Stability AI 推出,是基于 Vicuna-13B 模型构建的大规模聊天机器人, 在 Vicuna-13B 基础上进行指令微调和使用 RLHF 训练得到。在训练过程中,Stability AI 使用 Open Assistant、Anthropic 和 Stanford 等机构构建的开源数据集,StableVicuna 可以做基础数学题、写代码、还能讲解语法知识。当前 StableVicuna 支持在 huggingface space 试用,还可在 Hugging Face 上下载模型的权重,作为原始 LLaMA 模型的增量。但若想使用 StableVicuna,还需要获得原始 LLaMA 模型的访问权限。
获取资源:
https://sota.jiqizhixin.com/project/stablevicuna
南洋理工大学开源中文大型语言模型Panda,基于LLaMA进行中文领域上的持续预训练,基准测试中远超同类中文语言模型
南洋理工开源中文大语言模型 Panda,基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练,使用接近 15M 条数据,并针对推理能力在中文 benchmark 上进行了评测,测试中表现优异,远超同等类型的中文语言模型。当前项目开源模型的型号:Panda-7B、Panda-Instruct-7B,并发布模型采用的公开中英文语料数据集,该项目集成了 Deepspeed 加速框架,提供模型训练的超参数提示、命令。
获取资源:
https://sota.jiqizhixin.com/project/panda-4
计图团队开源的大型模型推理库JittorLLMs,支持包含LLaMA、ChatGLM等在内的四种主流模型
计图团队开源的大型模型推理库 JittorLLMs,支持包含 LLaMA、ChatGLM 等在内的四种主流模型,仅需笔记本级别的算力资源即可实现本地大模型的部署。相比同类框架,大幅降低硬件配置要求,无显卡的情况下 2G 内存即可运行,同时实现优化的推理模式,以优化低资源情况下的推理速度。使用上,用户不需要修改任何代码,只需要安装 Jittor 版 torch(JTorch),即可实现模型的迁移,以便于适配各类异构计算设备和环境。
获取资源:
https://sota.jiqizhixin.com/project/jittorllms
网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。
一财网 2023-12-24