大模型整体流程:0)无监督预训练(庞大的通用语料)、1)二次无监督预训练(注入垂直领域知识)、2)有监督微调(问答对/指令对等)、3)奖励模型(排序后的数据集)、4)与人类对齐的强化训练PPO

秒速五厘米 2023-10-12 13:42 3阅读 0赞

发表评论

表情:
评论列表 (有 0 条评论,3人围观)

还没有评论,来说两句吧...

相关阅读