使用 PyTorch FSDP 微调 Llama 2 70B

作者：HuggingFace发布时间：2023-12-12

LLaMA Hugging Face

## 引言通过本文，你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中，我们主要会用到 Hugging Face Transformers、Accel...【查看原文】

相关资讯

Meta 发布开源大模型 Code Llama 70B

Meta 今天宣布，推出全新开源大模型Code Llama 70B，据悉，其HumanEval评分达到67.8，达到 GPT-4水准，是目前评分最高的开源大模型。

LLaMA GPT-4

2024-01-30

使用 DPO 微调 Llama 2

简介基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback，RLHF) 事实上已成为 GPT-4 或 Claude 等 LLM 训练的最后一步

LLaMA GPT-4 Claude

HuggingFace 2023-08-22

实战｜如何低成本训练一个可以超越 70B Llama2 的模型 Zephyr-7B

每一周，我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「Hugging Ne

Hugging Face

HuggingFace 2023-10-28

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

用AI生成的指令微调羊驼大模型，数学能力超ChatGPT——微软最新开源大模型WizardMath来了。如下图所示，经过GSM8k数据集测试，WizardMath数学能力直接击败了ChatGPT、Claude In

ChatGPT Claude 微软

2023-08-14

国产720亿参数开源免费模型来了！对标Llama2 70B，一手实测在此

通义千问又双叒开源了最强开源大模型，再次易主！就在刚刚，阿里云通义千问又双叒开源了，并且直接开大：甩出了720亿参数版本—— 在中国的开源大模型中，少见地直接对标最大号羊驼Llama2-70B。

通义千问

量子位 2023-12-04

近期资讯

如何优雅实现 redux 的 Action ts 类型

引子在学习 react 的过程中经常听到过 “redux” 这个状态管理工具。但因为工作中我最常用的是 mobx 或者 Context，所以一直都没怎么了解 redux。于是我就抱着试试的想法在新

米龙丶 2024-12-29

调试Cesium源码分析并解决在Vite中使用遇到的问题

本文通过调试分析在Vite配置CesiumJS项目时发现静态资源路径问题。利用调试工具追踪错误，调整Vite配置，成功解决了资源加载路径问题，确保开发与生产环境中的资源访问正常。

Jiude 2024-12-29

MySQL中踩到的坑之timestamp数据类型

在同城两中心灾备的项目中，发现业务场景用到timestamp数据类型踩到的坑，规避问题并扩展验证MySQL行为。

啊山022324 2024-12-29

掌握异步编程精髓：从回调地狱到promise再到async/await 的优雅进化

前言：在我学习如何使用JS来拉取数据时，发现我虽然会使用fetch()，但是却对其原理并没有什么过多的了解，对其的了解仅限于其是基于promise对象而言，而当我对其搜索时发现最多的概念就是异步编程

谎言西西里 2024-12-29

点燃前端革命！React与Vue携手共创未来！

在Web应用日益复杂化的今天，选择一个合适的前端框架对于项目的成功至关重要。React和Vue作为两大主流前端库/框架，各自拥有独特的优势，而将二者结合使用，则可以为开发者提供更广阔的创造空间。

小公主 2024-12-29

🔥工作中实体类的属性为什么全用private修饰？

刚工作时我一直没理解，访问修饰符有四种，为什么工作中数据实体总是全用`private`修饰呢？我就想是一种规范照抄吧，毕竟大家都这么用。后来为究其根本我查询了多方资料，以此篇文章解惑：

JavaCool 2024-12-29

掌控CSS布局：从盒模型到BFC，一探究竟 🧩💻

CSS布局是网页开发的核心，理解盒模型、display属性和现代布局（如Flexbox、Grid）至关重要。通过掌握这些知识，你可以轻松实现复杂的页面设计，提高开发效率，打造更美观、实用的用户界面。

answerball 2024-12-29

0基础小白也能轻松上手的油猴脚本编写教程

油猴脚本是什么？在当今数字化时代，我们每天都在浏览器上花费大量时间浏览各种网页。你是否曾想过，能够按照自己的意愿定制网页功能，让上网体验更加顺畅、高效且有趣呢？这时候，油猴脚本就能派上大用场.....

时之翼 2024-12-29

💡前端入门网络协议-域名，DNS

生活中，两个人之间进行交流，都说中文，或者都说英文才能进行交流。或者说话之前先打声招呼，才开始对话，这是一种规则，而两个计算机之间进行通信，也是需要遵循一种规则

慢功夫 2024-12-29

理解Nuxt——基于Nuxt SSG纯前端实现游戏官网(SEO)

参考Tencent游戏，基于Nuxt.js开发一个游戏官网，支持NodeJS SSR，另外实现基于SSG纯前端部署实践；

黑羽同学 2024-12-29

使用 PyTorch FSDP 微调 Llama 2 70B

推荐体验

相关资讯

Meta 发布开源大模型 Code Llama 70B

使用 DPO 微调 Llama 2

实战｜如何低成本训练一个可以超越 70B Llama2 的模型 Zephyr-7B

数学能力超ChatGPT 70B开源大模型火了：用AI微调AI

国产720亿参数开源免费模型来了！对标Llama2 70B，一手实测在此

近期资讯

如何优雅实现 redux 的 Action ts 类型

调试Cesium源码分析并解决在Vite中使用遇到的问题

MySQL中踩到的坑之timestamp数据类型

掌握异步编程精髓：从回调地狱到promise再到async/await 的优雅进化

点燃前端革命！React与Vue携手共创未来！

🔥工作中实体类的属性为什么全用private修饰？

掌控CSS布局：从盒模型到BFC，一探究竟 🧩💻

0基础小白也能轻松上手的油猴脚本编写教程

💡前端入门网络协议-域名，DNS

理解Nuxt——基于Nuxt SSG纯前端实现游戏官网(SEO)

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响