大模型整体流程：0)无监督预训练（庞大的通用语料）、1)二次无监督预训练（注入垂直领域知识）、2)有监督微调（问答对/指令对等）、3)奖励模型（排序后的数据集）、4)与人类对齐的强化训练PPO

秒速五厘米 2023-10-12 13:42 3阅读 0赞

**模型的知识来源于预训练阶段，指令微调目的是和人类指令进行对齐。在指令微调阶段，数据的质量与丰富度，远比数量更重要**。这是最近一段时间，开源社区以及各个论文强调的一个结论。

![ecec61e51da84c769588df0f31d3fc48.png][]

![abd4a2b032f64b3ea8c1d35fbf9e330d.png][]

![7fdeea4672924a718b5370049e8acb53.png][]

--------------------

[LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】\_u013250861的博客-CSDN博客][LLM-2022_InstructGPT_GPT3-_GPT3_-_SFT_-_SFT_-_RM-_RL_u013250861_-CSDN]

[QLoRA实战 | 使用单卡高效微调bloom-7b1，效果惊艳\_zenRRan的博客-CSDN博客][QLoRA_ _ _bloom-7b1_zenRRan_-CSDN]

[ecec61e51da84c769588df0f31d3fc48.png]: https://img-blog.csdnimg.cn/ecec61e51da84c769588df0f31d3fc48.png
[abd4a2b032f64b3ea8c1d35fbf9e330d.png]: https://img-blog.csdnimg.cn/abd4a2b032f64b3ea8c1d35fbf9e330d.png
[7fdeea4672924a718b5370049e8acb53.png]: https://img-blog.csdnimg.cn/7fdeea4672924a718b5370049e8acb53.png
[LLM-2022_InstructGPT_GPT3-_GPT3_-_SFT_-_SFT_-_RM-_RL_u013250861_-CSDN]: https://blog.csdn.net/u013250861/article/details/129582029
[QLoRA_ _ _bloom-7b1_zenRRan_-CSDN]: https://blog.csdn.net/qq_27590277/article/details/131078923