NLP-预训练模型-2019：XLM-Roberta【一种多语言预训练模型】

心已赠人 2023-10-01 11:12 37阅读 0赞

[《原始论文：Unsupervised Cross-lingual Representation Learning at Scale》][Unsupervised Cross-lingual Representation Learning at Scale]

Facebook AI团队于2019年11月发布了XLM-RoBERTa，作为其原始XLM-100模型的更新。它们都是基于Transformer的语言模型，都依赖于掩码语言模型目标，并且都能够处理100种不同语言的文本。

相较于原始版本，XLM-Roberta的最大更新是训练数据量的显著增加。经过清洗训练过的常用爬虫数据集占用高达2.5tb的存储空间！它比用来训练其前身的Wiki-100语料库大几个数量级，并且在资源较少的语言中，扩展尤其明显。

它比用来训练其前版本的Wiki-100语料库大几个数量级，并且在资源较少的语言中，这种扩大尤其明显。“ RoBERTa”从某方面来说，它的训练程序与单语言RoBERTa模型相同，特别是唯一的训练目标是掩码语言模型。它没有下句预测的á la BERT模型或者句子顺序预测的á la ALBERT模型。

--------------------

--------------------

--------------------

参考资料：  
[XLM-RoBERTa: The alternative for non-english NLP][XLM-RoBERTa_ The alternative for non-english NLP]  
[XLM-RoBERTa: 一种多语言预训练模型][XLM-RoBERTa_]

[Unsupervised Cross-lingual Representation Learning at Scale]: https://arxiv.org/abs/1911.02116
[XLM-RoBERTa_ The alternative for non-english NLP]: https://medium.com/deepset-ai/xlm-roberta-the-multilingual-alternative-for-non-english-nlp-cf0b889ccbbf
[XLM-RoBERTa_]: https://blog.csdn.net/qq_27590277/article/details/107603109

发表评论取消回复

表情：

评论列表（有 0 条评论，37人围观）

还没有评论，来说两句吧...

相关阅读

相关预训练模型：DeBERTa

二郎神系列开新坑啦，Deberta系列上新。从19年Roberta开源以来，Roberta应该算是使用者最多的Encoder结构模型，简单、效果好，使用起来十分方便，在过去

古城微笑少年丶/ 2023年10月12日 13:27/ 0 赞/ 45 阅读

相关 NLP-预训练模型-2020

Transformer 是目前 NLP 研究领域中特别重要的模型，也衍生出了很多基于 Transformer 的方法，例如 BERT、GPT，在很多 NLP 任务中有很好的效果

水深无声/ 2023年10月01日 20:47/ 0 赞/ 66 阅读

相关 NLP-预训练模型-2018：Bert字典

-------------------- -------------------- -------------------- 参考资料： [我的BERT！改改字典，让

落日映苍穹つ/ 2023年10月01日 19:03/ 0 赞/ 21 阅读

相关 NLP-预训练模型-2019：XLM-Roberta【一种多语言预训练模型】

[《原始论文：Unsupervised Cross-lingual Representation Learning at Scale》][Unsupervised Cross-

心已赠人/ 2023年10月01日 11:12/ 0 赞/ 38 阅读

相关 NLP-预训练模型-2019：SpanBERT

![在这里插入图片描述][watermark_type_d3F5LXplbmhlaQ_shadow_50_text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6Y

古城微笑少年丶/ 2023年10月01日 11:10/ 0 赞/ 39 阅读

相关 NLP-预训练模型-2019-NLU+NLG：UniLM（自然语言理解与生成的统一预训练语言模型）

UniLM论文全名为Unified Language Model Pre-training for Natural Language Understanding and Gen

谁践踏了优雅/ 2023年09月30日 10:27/ 0 赞/ 19 阅读

相关对话预训练_NLP中的预训练语言模型（一）—— ERNIE们和BERTwwm

![084fb69709f176b37300b681f0c41104.gif][] 　　随着bert在NLP各种任务上取得骄人的战绩，预训练模型在这不到一年的时间内得到了很大

缺乏、安全感/ 2023年01月05日 09:58/ 0 赞/ 260 阅读

相关 tf预训练模型转换为torch预训练模型

在将albert的tensorflow预训练模型转换为 torch类型预训练模型，踩了很多坑。终于解决，希望对大家有用 1. 前期准备创建一个环境带有torc

た入场券/ 2022年11月11日 05:51/ 0 赞/ 319 阅读

相关预训练语言模型

常用的抽取文本特征有： TFIDF/LDA/LSI gensim glove fasttext ELMO Bert [word2vec

不念不忘少年蓝@/ 2022年03月01日 03:50/ 0 赞/ 338 阅读

相关 NLP预训练模型综述

现在深度学习越来越火了，在NLP领域主要使用CNNs、RNNs、GNNs以及attention机制。尽管这些模型取得了一些成绩，但是和CV相比，还是有些差距的，主

迈不过友情╰/ 2021年09月24日 13:34/ 0 赞/ 676 阅读