现有的大模型 默认的是16bits精度,当模型的参数量大小为 **B ,推理所需的显存一般是 ** 的 2 倍。对于全参数微调所需显存,目前来说普遍的说法是约为推理所需显存的 3-4 倍(包括模型推理(1倍)、梯度(1倍)、优化器状态(AdamW 2倍,SGD 1倍)),也就是 ** 的 6-8 倍。但是从实际测试来看的话,全参数微调所需显存约为推理所需显存的10 倍左右,也即 ** 的20倍左右。
以下是模型不同微调方法时候的经验显存数值:
方法
bits
7B
13B
30B
65B
8*7B
全参数微调
16
160GB
320GB
600GB
1200GB
900GB
Freeze
16
20GB
40GB
120GB
240GB
200GB
LoRA
16
16GB
32GB
80GB
160GB
120GB
QLoRA
8
10GB
16GB
40GB
80GB
80GB
QLoRA
4
6GB
12GB
24GB
48GB
32GB
从上述的经验显存上也可看到,全参数微调,约为 ** 的20倍左右;而4 bits 的QLoRA,所需的显存约为 ** 的1 倍左右。
相关知识
如何评估大模型全参数微调需要的显存
大模型训练结果分析与评估
大模型训练结果分析及其效果评估
如何训练自己的 AI 模型:逐步指南
快速部署模型和训练模型
【YOLOv8训练结果评估】YOLOv8如何使用训练好的模型对验证集进行评估及评估参数详解
PaddleSeg 自建训练集训练+评估+模型部署
深入解析Yolov7模型训练结果及评估
自然语言处理中的预训练模型效果评估
模型训练、评估与推理
网址: 如何评估大模型全参数微调需要的显存 https://m.mcbbbk.com/newsview384345.html
上一篇: PyTorch GPU利用率为0 |
下一篇: YOLO训练内存优化:释放资源, |