发表评论取消回复
相关阅读
相关 图文多模态预训练任务整理
引言 近些年来,随着Transformer在CV与NLP领域的广泛应用,研究者们对“多模态”的研究也越来越重视。所谓多模态,就是利用多种模态如图像、文本、音频等信息,力求
相关 NLP-预训练模型-2019:XLM-Roberta【一种多语言预训练模型】
[《原始论文:Unsupervised Cross-lingual Representation Learning at Scale》][Unsupervised Cross-
相关 AI-多模态-2021:ALIGN【】
[https://arxiv.org/abs/2102.05918][https_arxiv.org_abs_2102.05918] 【写在前面】 学习良好的视觉和视觉
相关 AI-多模态-2021:FILIP【一种基于交互的细粒度图文预训练模型】
前言 FILIP(Fine-grained Interactive Language-Image Pretrain)是一种基于交互的细粒度图文预训练模型,用于解决图文双塔
相关 AI-多模态-2021:ALBEF
■ 简介 大规模的视觉和语言表示学习在许多vision-language任务上取得了很大的进步。现有的方法大多用一个以transformer为基础的多模态编码器来联合建模
相关 多模态预训练模型选用指南(Vision-Language Pre-traning)
本篇整理一下最近几篇关于Vision-Language Pre-traning(VLP)的综述文章,以及一篇很不错的,关于各个组件的选用指南文章。 VLP: A Survey
相关 AI-多模态-文本->图像-2021:DALL-E模型【OpenAI】
Dall-e:从拟物文字到图片的创造 人类不断地从五种感官接收和整合信息,通过视觉、听觉、触觉、嗅觉和味觉等生物信息来理解文字和图片。然而文字和图片属于符号,Dall-e
相关 (四):M6:中文多模态预训练模型
文献阅读(四):M6: A Chinese Multimodal Pretrainer ABSTRACT KEYWORDS 1 INTRODUCTION
相关 读文章笔记(十二):图文音三模态预训练模型
读文章笔记(十二):图文音三模态预训练模型 前言 三模态预训练模型基本原理 多层次多任务自监督预训练学习 实验结果 数据集 [
相关 图文模态交互 | CLIP + GAN = ?
点击上方“机器学习与生成对抗网络”,关注星标 获取有趣、好玩的前沿干货! ![f5d083adcebb521839112cd654632ca7.png][]
还没有评论,来说两句吧...