RLHF：基于人类反馈（Human Feedback）对语言模型进行强化学习【Reinforcement Learning from Human Feedback】

╰半橙微兮° 2023-09-25 14:21 114阅读 0赞

[HuggingFace][]发表了一篇博客，详细讲解了ChatGPT背后的技术原理——RLHF。

笔者读过之后，觉得讲解的还是蛮清晰的，因此提炼了一下核心脉络，希望给对ChatGPT技术原理感兴趣的小伙伴带来帮助。

此外，文末整理了几篇关于 RLHF 最热门的12篇必读论文，卖萌酱打包好挂在公众号后台了，感兴趣的小伙伴可以在公众号“夕小瑶的卖萌屋”后台回复【1212】领取。

在过去几年里，基于prompt范式的AI[生成模型][Link 1]取得了巨大的成功，诞生了不少有意思的AI应用，例如AI写小说，AI写代码，AI画图甚至AI做视频等。

但其实这种生成模型很难训练。以语言模型为例，大多是采用“自回归生成”的方式，通过循环解码的方式来逐字或逐词生成内容。训练时往往简单的基于上下文信息去预测下一个词，然后用交叉熵来计算每个词的loss。显然这种token-level的loss不能很好的从整体输出的层面去指导模型优化方向。

为了能刻画模型输出的整体质量（而不是单个词），人们往往用BLEU或ROUGH等评价指标来刻画模型输出与人类偏好的相近程度，但这也仅仅是在评价的层面，模型在训练的时候是见不到这些人类真实的偏好的。

因此，训练阶段，如果直接用人的偏好（或者说人的反馈）来对模型整体的输出结果计算reward或loss，显然是要比上面传统的“给定上下文，预测下一个词”的损失函数合理的多。基于这个思想，便引出了本文要讨论的对象——**RLHF（Reinforcement Learning from Human Feedback）：即，使用强化学习的方法，利用人类反馈信号直接优化语言模型**。

[抱抱脸：ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文\_夕小瑶的博客-CSDN博客][ChatGPT_RLHF _ _12_RLHF_-CSDN]

[从零实现ChatGPT——RLHF技术笔记 - 知乎][ChatGPT_RLHF_ -]

[Illustrating Reinforcement Learning from Human Feedback (RLHF)][Illustrating Reinforcement Learning from Human Feedback _RLHF]

[HuggingFace]: https://so.csdn.net/so/search?q=HuggingFace&spm=1001.2101.3001.7020
[Link 1]: https://so.csdn.net/so/search?q=%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B&spm=1001.2101.3001.7020
[ChatGPT_RLHF _ _12_RLHF_-CSDN]: https://blog.csdn.net/xixiaoyaoww/article/details/128367726
[ChatGPT_RLHF_ -]: https://zhuanlan.zhihu.com/p/591474085
[Illustrating Reinforcement Learning from Human Feedback _RLHF]: https://huggingface.co/blog/rlhf