五花八门的多模态模型如何选择?
定期更新干货算法笔记和世间万物的学习记录~
Visual-Language Pretraining(VLP)是多模态领域的核心研究点之一,也是目前的一个热点研究方向。学术界提出了五花八门的VLP模型结构、训练方法方法。这些VLP方法哪种效果最好呢?微软近期发表的一篇论文An Empirical Study of Training End-to-End Vision and Language Transformers(2022)进行了大量的实验,对不同VLP模型、各个模块不同配置的效果。
本文以这篇论文为基础,详细介绍VLP的各个组成部分,以及各个部分的不同配置对效果的影响。
1
VLP中的五大模块
学术界关于Visual-Language模型的论文有几十上百篇,但是它们大多数都遵循同一个框架,包含五大模块,分别为Vision Encoder、Text Encoder、Multimodal Fusion、是否包含Decoder以及预训练任务(如下图)。不同的VLP论文主要对这5个模块进行不同的设计。
下面,我们回顾一下历史的VLP工作,看看各个模块都有哪些设计方式。
Visual Encoder:Visual Encoder主要包括3种类型。第一种类型为使用object detection模型(一般为Faster R-CNN)识别图像中的目标区域,并生成每个目标区域的特征表示,输入到后续模型中。例如下图是Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training(AAAI 2020)中的一个例子,对图中的各个目标region识别后生成表示,融入到主模型Bert中。第二种方式是利用CNN模型提取grid feature作为图像侧输入。第三种方式是ViT采用的将图像分解成patch,每个patch生成embedding输入到模型中。随着Vision-Transformer的发展,第三种方式逐渐成为主流方法。本文主要研究的Visual Encoder是第三种,相比前两种方式运行效率更高,不需要依赖object detection模块或前置的CNN特征提取模块。下表汇总了一些SOTA VLP模型这5个模块的配置。
2
哪种VLP模型配置最好
文中进行了详细的对比实验,分析VLP模型5个模块采用不同配置的效果差异。最后,文中也列出了各种SOTA VLP模型的效果。本文验证VLP效果的主要任务是VQA任务,即给定一张图片和一个关于这个图片的文本问题,模型预测对应的文本答案,数据集为VQAv2。下面我们分别介绍文中的各个实验。
实验1:探索不同Text/Image Encoder对效果的影响。不进行VLP预训练对比不同Text Encoder、Vision Encoder效果。使用文本、图像单模态的模型各自的参数初始化对应Encoder,在Encoder输出基础上接多层随机初始化Transformer,然后直接在下游任务上Finetune,效果如下表。从表中数据可以看出,在不进行预训练的情况下,各个Text Encoder效果差距不大,RoBERTa效果最稳定;对于Vision Encoder来说,Swin Transformer取得了最好的效果。
文中提出两个训练技巧。首先,对于随机初始化的参数和使用预训练初始化的参数要使用不同的学习率,前者的学习率设置的大一些对效果有帮助。其次,finetune阶段增大图像分辨率会带来效果显著提升。
实验2:探索Multimodal Fusion模块对效果的影响。实验结果表明,co-attention要比merged attention效果更好。这表明VLP任务中最好对于不同模态使用一套独立的参数。文中也提到,这个结论在region-based方法中并不适用。
实验3:Encoder-only和Encoder-Decoder对比。从上表结果来看,Encoder-only模型的效果更好。但是Encoder-Decoder模型更灵活,可以解决image captioning等和文本生成有关的任务。
实验4:不同预训练任务的效果对比。通过下面的任务可以看出,MLM任务和ITM任务都对模型效果有显著提升,其中MLM带来的提升更大。而MIM任务,即mask部分图像再预测,加入预训练后效果反而出现下降。
最后,文中也对比了各个SOTA方法的效果。文中采用最优配置进行模型训练,得到了VLP预训练框架METER,取得了非常显著的效果。
3
总结
这篇论文对VLP历史工作总结的比较全面(虽然有一些近期工作没有被纳入进来),并且通过大量实验验证了不同VLP模块配置对最终图文任务效果的影响,是一个多模态入门者比较好的参考资料。
END
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-02
,如有侵权请联系 cloudcommunity@tencent.com 删除
相关知识
五花八门的多模态模型如何选择?
一种基于多模态模型的花菇分级采摘方法及系统与流程
基于多模态大模型的农作物病虫害智能诊断系统
低质多模态数据融合,多家机构联合出了篇综述论文
软通动力:多模态大模型产业高峰论坛成功举办 ChatImg2.0、软通天璇2.0 MaaS平台正式发布
采用AI多模态植保大模型,北京智慧植保系统亮相联合国粮农组织 — 新京报
探索多模态情感识别:MER数据集的深度解析与应用
AppAgent: 像人类用户一样操作手机的多模态智能体
基于多模态影像的作物病虫害检测方法及系统、设备、存储介质与流程
【综述研读】深度学习多模态图像语义分割前沿进展
网址: 五花八门的多模态模型如何选择? https://www.huajiangbk.com/newsview2175349.html
上一篇: 我院花晓波副教授一行赴日开展中日 |
下一篇: 学术研究录音助手进入智能时代听脑 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039