本文是对《Masked Autoencoders Are Scalable Vision Learners》一文的浅显翻译与理解,如有侵权即刻删除。
更多相关文章,请移步:
文献阅读总结:计算机视觉
《Masked Autoencoders Are Scalable Vision Learners》
——CVPR2022
Author: 何恺明
具体讲解可参考李沐解读视频:https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.999.0.0
文章提出了MAE模型,本质上是将transformer应用到了视觉领域,在此对几个模型演变进行解释:transformer提出于NLP领域,是有监督学习,而BERT对齐扩展到了自监督学习领域。与此同时,VIT将transformer迁移到cv方向,仍然是有监督学习,那么这篇MAE就可视为视觉领域中的BERT。
在此,将结合另外一篇论文进行解读,NeurIPS2022-Masked Autoencoders As Spatiotemporal Learners,该论文把MAE从视觉领域扩展到了视频领域。
文章指出,相比于文本数据的精炼,图像和视频数据往往有着较多的冗余信息,即便对少部分位置进行掩码,也能够通过周围信息直接推断。
因此,不同于BERT的掩码率在15%,MAE在图像上的掩码率达到75%,而在视频上达到90%。
图像版本的MAE有几个主要流程:(1)非对称masked autoencoders;(2)把可见的patch输入encoder,然后把masked tokens合并进去;(3)解码后补全图片。而视频版本的MAE没有对时空的注意力进行解耦的操作,直接规则地切分了三维的像素块作为patch。
该模型的结构也非常简洁明了,是transformer在cv和视频领域强大应用能力的又一佐证。而且通过对文本、图像、视频三种不同模态数据上不同掩码率的比较,也让人对多模态数据的区别有了直观的认知。