大模型训练-实战：模型、算力、数据训练实际情况【LLaMA系列（zhixi-13b）、mt5系列（mt5-xxl-13b）】

「爱情、让人受尽委屈。」 2023-10-13 09:09 16阅读 0赞

## 一、LLaMA系列 ##

### **1、**zhixi-13b-sft（包含官方lora模块） ###

(base) root@container-be6711b100-146dc186:~/tmp/zhixi-13b-sft# ls -l --block-size=m
    total 49653M
    -rwxr-xr-x 1 root root    1M Jul  1 12:07 config.json
    -rwxr-xr-x 1 root root    1M Jul  1 12:07 generation_config.json
    -rwxr-xr-x 1 root root 9496M Jul  1 12:15 pytorch_model-00001-of-00006.bin
    -rwxr-xr-x 1 root root 9481M Jul  1 12:22 pytorch_model-00002-of-00006.bin
    -rwxr-xr-x 1 root root 9481M Jul  1 12:29 pytorch_model-00003-of-00006.bin
    -rwxr-xr-x 1 root root 9411M Jul  1 12:36 pytorch_model-00004-of-00006.bin
    -rwxr-xr-x 1 root root 9411M Jul  1 12:43 pytorch_model-00005-of-00006.bin
    -rwxr-xr-x 1 root root 2376M Jul  1 12:45 pytorch_model-00006-of-00006.bin
    -rwxr-xr-x 1 root root    1M Jul  1 12:45 pytorch_model.bin.index.json
    -rwxr-xr-x 1 root root    1M Jul  1 12:45 special_tokens_map.json
    -rwxr-xr-x 1 root root    1M Jul  1 12:45 tokenizer_config.json
    -rwxr-xr-x 1 root root

发表评论取消回复

表情：

评论列表（有 0 条评论，16人围观）

还没有评论，来说两句吧...

相关阅读

相关 LLM-LLaMA中文衍生模型：LLaMA-ZhiXi【没有对词表进行扩增、全参数预训练、部分参数预训练、指令微调】

> 下图展示了我们的训练的整个流程和数据集构造。整个训练过程分为两个阶段： > > （1）全量预训练阶段。该阶段的目的是增强模型的中文能力和知识储备。 > > （2）使用L

太过爱你忘了你带给我的痛/ 2024年03月16日 23:05/ 0 赞/ 61 阅读

相关大语言模型训练技巧

10、Flash Attention 标准Attention的中间结果需要通过高带宽内存（HBM）进行存取，空间复杂度为O(N2)。随着输入序列长度的增加，标准Attenti

客官°小女子只卖身不卖艺/ 2024年02月19日 07:50/ 0 赞/ 57 阅读

相关【AI大模型】训练Al大模型

大模型超越AI 前言 [洁洁的个人主页][Link 1] 我就问你有没有发挥！知行合一，志存高远。 > 目前所指的大模型，是“大规模深度学习模型”的简称，指

刺骨的言语ヽ痛彻心扉/ 2023年10月14日 22:00/ 0 赞/ 36 阅读

相关大模型训练所需GPU：GPT-4、LLaMA、Falcon、Inflection

![f45a0864f5894a6d89f81a7d02adf772.png][] How Many GPUs Are Needed? GPT-4 was likel

桃扇骨/ 2023年10月14日 15:39/ 0 赞/ 56 阅读

相关 DeepSpeed Chat大模型训练【训练类ChatGPT 的大模型】

第1章：DeepSpeed-Chat 模型训练实战本章内容介绍如何使用微软最新发布的 DeepSpeed Chat 来训练类 ChatGPT 的大模型。通过本章内

青旅半醒/ 2023年10月13日 09:14/ 0 赞/ 36 阅读

相关大模型训练-实战：模型、算力、数据训练实际情况【LLaMA系列（zhixi-13b）、mt5系列（mt5-xxl-13b）】

一、LLaMA系列 1、zhixi-13b-sft（包含官方lora模块） (base) root@container-be6711b100-146dc18

「爱情、让人受尽委屈。」/ 2023年10月13日 09:09/ 0 赞/ 17 阅读

相关 NLP-预训练模型-2020-NLU+NLG：mT5【多国语言版T5】

最近的“文本到文本的迁移transformer”(T5)利用统一的文本到文本的格式和大规模，在各种英语NLP任务上获得最新的结果。在本文中，我们介绍了mT5，它是T5的多语言

谁践踏了优雅/ 2023年10月01日 18:59/ 0 赞/ 6 阅读

相关 yoloV5模型训练教程并进行量化

yoloV5模型训练教程数据标注数据标注我们要用labelimg pip install labelimg 百度爬虫爬取图像 impo

向右看齐/ 2022年10月06日 04:47/ 0 赞/ 315 阅读

相关 springMVC笔记系列(13)——模型数据处理篇之 ModelAndVIew对象

说明：本文章的内容转载至：[https://my.oschina.net/happyBKs/blog/420310][https_my.oschina.net_happyBKs

末蓝、/ 2022年07月14日 07:53/ 0 赞/ 185 阅读

相关 caffe系列：用训练好的模型来分类

参考：[https://www.cnblogs.com/denny402/p/5111018.html][https_www.cnblogs.com_denny402_p_51

清疚/ 2022年02月23日 11:00/ 0 赞/ 270 阅读