Google研究科学家:告别卷积

Transformer是由谷歌于2017年提出的具有里程碑意义的模型,同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环为基础(RNN, LSTM等)。从本质上来讲,RNN是以串行的方式来处理数据,对应到NLP任务上,即按照句中词语的先后顺序,每一个时间步处理一个词语。

相较于这种串行模式,Transformer的巨大创新便在于并行化的语言处理:文本中的所有词语都可以在同一时间进行分析,而不是按照序列先后顺序。为了支持这种并行化的处理方式,Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系,且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系,来决定应该对哪些词或短语赋予更多的注意力。

相较于RNN必须按时间顺序进行计算,Transformer并行处理机制的显著好处便在于更高的计算效率,可以通过并行计算来大大加快训练速度,从而能在更大的数据集上进行训练。例如GPT-3(Transformer的第三代)的训练数据集大约包含5000亿个词语,并且模型参数量达到1750亿,远远超越了现有的任何基于RNN的模型。

现有的各种基于Transformer的模型基本只是与NLP任务有关,这得益于GPT-3等衍生模型的成功。然而,最近ICLR 2021的一篇投稿文章开创性地将Transformer模型跨领域地引用到了计算机视觉任务中,并取得了不错地成果。这也被许多AI学者认为是开创了CV领域的新时代,甚至可能完全取代传统的卷积操作。   其中,Google的Deepmind 研究科学家Oriol Vinyals的看法很直接:告别卷积。   以下为该论文的详细工作:

基本内容  Transformer的核心原理是注意力机制,注意力机制在具体实现时主要以矩阵乘法计算为基础,这意味着可以通过并行化来加快计算速度,相较于只能按时间顺序进行串行计算的RNN模型而言,大大提高了训练速度,从而能够在更大的数据集上进行训练。   此外,Transformer模型还具有良好的可扩展性和伸缩性,在面对具体的任务时,常用的做法是先在大型数据集上进行训练,然后在指定任务数据集上进行微调。并且随着模型大小和数据集的增长,模型本身的性能也会跟着提升,目前为止还没有一个明显的性能天花板。

Transformer的这两个特性不仅让其在NLP领域大获成功,也提供了将其迁移到其他任务上的潜力。此前已经有文章尝试将注意力机制应用到图像识别任务上,但他们要么是没有脱离CNN的框架,要么是对注意力机制进行了修改,导致计算效率低,不能很好地实现并行计算加速。因此在大规模图片分类任务中,以ResNet为基本结构的模型依然是主流。

这篇文章首先尝试在几乎不做改动的情况下将Transformer模型应用到图像分类任务中,在 ImageNet 得到的结果相较于 ResNet 较差,这是因为Transformer模型缺乏归纳偏置能力,例如并不具备CNN那样的平移不变性和局部性,因此在数据不足时不能很好的泛化到该任务上。 然而,当训练数据量得到提升时,归纳偏置的问题便能得到缓解,即如果在足够大的数据集上进行与训练,便能很好地迁移到小规模数据集上。  在此基础上,作者提出了Vision Transformer模型。下面将介绍模型原理。

模型原理  该研究提出了一种称为Vision Transformer(ViT)的模型,在设计上是尽可能遵循原版Transformer结构,这也是为了尽可能保持原版的性能。   虽然可以并行处理,但Transformer依然是以一维序列作为输入,然而图片数据都是二维的,因此首先要解决的问题是如何将图片以合适的方式输入到模型中。本文采用的是切块 + embedding的方法,如下图:

首先将原始图片划分为多个子图(patch),每个子图相当于一个word,这个过程也可以表示为:

其中x是输入图片,xp则是处理后的子图序列,P2则是子图的分辨率,N则是切分后的子图数量(即序列长度),显然有。由于Transformer只接受1D序列作为输入,因此还需要对每个patch进行embedding,通过一个线性变换层将二维的patch嵌入表示为长度为D的一维向量,得到的输出被称为patch嵌入。   类似于BERT模型的[class] token机制,对每一个patch嵌入,都会额外预测一个可学习的嵌入表示,然后将这个嵌入表示在encoder中的最终输出()作为对应patch的表示。在预训练和微调阶段,分类头都依赖于。   此外还加入了位置嵌入信息(图中的0,1,2,3…),因为序列化的patch丢失了他们在图片中的位置信息。作者尝试了各种不同的2D嵌入方法,但是相较于一般的1D嵌入并没有任何显著的性能提升,因此最终使用联合嵌入作为输入。   模型结构与标准的Transformer相同(如上图右侧),即由多个交互层多头注意力(MSA)和多层感知器(MLP)构成。在每个模块前使用LayerNorm,在模块后使用残差连接。使用GELU作为MLP的激活函数。整个模型的更新公式如下:

其中(1)代表了嵌入层的更新,公式(2)和(3)则代表了MSA和MLP的前向传播。   此外本文还提出了一种直接采用ResNet中间层输出作为图片嵌入表示的方法,可以作为上述基于patch分割方法的替代。

模型训练和分辨率调整  和之前常用的做法一样,在针对具体任务时,先在大规模数据集上训练,然后根据具体的任务需求进行微调。这里主要是更换最后的分类头,按照分类数来设置分类头的参数形状。此外作者还发现在更高的分辨率进行微调往往能取得更好的效果,因为在保持patch分辨率不变的情况下,原始图像分辨率越高,得到的patch数越大,因此得到的有效序列也就越长。

对比实验 4.1 实验设置  首先作者设计了多个不同大小的ViT变体,分别对应不同的复杂度。

其中ViT模型都是在JFT-300M数据集上进行了预训练。从上表可以看出,复杂度较低,规模较小的ViT-L在各个数据集上都超过了ResNet,并且其所需的算力也要少十多倍。ViT-H规模更大,但性能也有进一步提升,在ImageNet, CIFAR,Oxford-IIIT, VTAB等数据集上超过了SOTA,且有大幅提升。   作者进一步将VTAB的任务分为多组,并对比了ViT和其他几个SOTA模型的性能:

可以看到除了在Natrual任务中ViT略低于BiT外,在其他三个任务中都达到了SOTA,这再次证明了ViT的性能强大。  4.3 不同预训练数据集对性能的影响  预训练对于该模型而言是一个非常重要的环节,预训练所用数据集的规模将影响模型的归纳偏置能力,因此作者进一步探究了不同规模的预训练数据集对性能的影响:

上图展示了不同规模的预训练数据集(横轴)对不同大小的模型的性能影响,注意微调时的数据集固定为ImageNet。可以看到对大部分模型而言,预训练数据集规模越大,最终的性能越好。并且随着数据集的增大,较大的ViT模型(ViT-H/14)要由于较小的ViT模型(ViT-L)。   此外,作者还在不同大小的JFT数据集的子集上进行了模型训练:

可以发现ViT-L对应的两个模型在数据集规模增大时有非常明显的提升,而ResNet则几乎没有变化。这里可以得出两个结论,一是ViT模型本身的性能上限要优于ResNet,这可以理解为注意力机制的上限高于CNN。二是在数据集非常大的情况下,ViT模型性能大幅超越ResNet, 这说明在数据足够的情况下,注意力机制完全可以代替CNN,而在数据集较小的情况下(10M),卷积则更为有效。   除了以上实验,作者还探究了ViT模型的迁移性能,实验结果表明不论是性能还是算力需求,ViT模型在进行迁移时都优于ResNet。

可视化分析  可视化分析可以帮助我们了解ViT的特征学习过程。显然,ViT模型的注意力一定是放在了与分类有关的区域:

总结  本文提出的基于patch分割的图像解释策略,在结合Transformer的情况下取得了非常好的效果,这为CV领域的其他研究提供了一个很好的思路。此外,接下来应该会出现许多基于这篇工作的研究,进一步将这一划时代的模型应用到更多的任务上,例如目标检测、实例分割、行为识别等等。此外,也会出现针对patch分割策略的改进,来进一步提高模型性能。

原文标题:告别 CNN?一张图等于 16×16 个字,计算机视觉也用上 Transformer 了

原文标题:告别 CNN?一张图等于 16×16 个字,计算机视觉也用上 Transformer 了

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

前段时间,300多名来自全球各地的人工智能领域知名学者参加了第二届国际分布式人工智能学术会议(DAI….

随着科学技术的不断发展,犯罪分子的犯罪手段也同样在不断提升。从最新的报道来看,警方在今年就曾经破获过….

拜登还差6票!根据美国大选规则,率先得到270票的候选人将赢得美国总统!

今天给大家分享一些论坛社区的精选资料,大家有需要可以下来学习学习! 1.高焕堂老师《AI概论:来来来….

公共安全领域最忌讳的事情就是亡羊补牢式的救赎,而人工智能物联网新态势下,我们必须要打破这种弊端,建立….

当我们在翻译软件上输入 Transformer is a novel neural network ….

OPPO旗舰产品OPPOFindX2Pro凭借120HzQHD+超感屏、超感全焦段影像系统以及出色得….

在不久前召开的IC CHINA 2020(中国国际半导体博览会)上,中国工程院院士、浙江大学微纳电子….

AI赛道独角兽依图正式踏上了自己的上市之路。 11月4日,据上交所官网信息显示,依图已正式提交了招股….

Rakuten董事长兼CEO三木谷浩史(Mickey Mikitani)表示,传统运营商的服务套餐非….

本文来自cnBeta AMD第一款Ryzen 5000 APU – AMD Ryzen 7 5700….

人机搭配双把关,网上购药更安心!2020天猫双11,数万名互联网云药师在线值守,并与毫秒级响应的安全….

11月8日,第55届高等教育博览会(以下简称高博会)将在长沙召开。作为高等教育领域内举办时间最久、规….

防疫成为新常态,不但加速了AI与各行各业的深度融合,也让冲在技术开发与应用落地一线的AI开发者们登上….

在本次发布会上,NTT DoCoMo联合索尼推出了Xperia 5 Ⅱ紫色款,售价99000日元(约….

本次签约仪式也是进博会期间的重要活动之一,借助进博会这一汇聚全球化合作机遇的重要平台,三方的合作将为….

作为AI芯片的典型,目前华为、苹果等厂商都开始在NPU上发力。除此以外,开发者也在努力推进着手机端A….

相信大家都知道,在全球智能手机圈中,谷歌的Android系统、苹果IOS系统几乎垄断着全球近乎100%智能手机

人工智能在市场营销领域取得的成功,揭示了人类的一些思维和行为模式,这些模式可以转化为其他应用程序。

说到打字,大家第一个想到的应该就是手机的输入法或是电脑的键盘吧,这些打字的方法已经算得上是21世纪最….

11月6日,华为首届懂行大会在苏州举办。会上,华为中国政企业务总裁蔡英华发表题为《懂行的价值循环》主….

11月5日,资本邦获悉,依图科技有限公司(公司简称:依图科技)科创板IPO申请已于2020年10月4….

赛博朋克的电影里,常常可以看到这样的构想:社会已经被财阀集团所控制,人工智能充当了统治的工具,所有人….

作为近些年来热门的研究话题,人工智能(AI)已经融入到日常生活的方方面面,一个AI无处不在的新时代已….

人工智能(AI)发展至今,已成为社会生活和生产中一种非常真实的力量。这种力量将会,甚至已经,颠覆了世….

近日,中智行和中汽创智宣布达成战略合作,双方计划建立长期合作关系,共同加快智能汽车技术的研发及应用。….

反向传播(Back-Propagation)算法是当今主流AI计算流程的核心。其中涵盖了对损失函数的….

在日前举办的“中国移动‘5G+E’网边融合技术峰会”上,中国移动研究院副院长段晓东表示,边缘计算是5….

作者/IT时报记者 郝俊慧 排版/黄建 来源/《IT时报》公众号vittimes 30秒快读 1、1….

大华股份AI刷新了Cityscapes数据集中语义分割任务的全球最好成绩

继大华AI取得KITTI语义分割竞赛第一之后,近日,大华股份基于深度学习算法的语义分割技术,刷新了C….

11月3日,由芯师爷主办的2020年度硬核中国芯领袖峰会暨评选颁奖盛典在深圳慕尼黑华南电子展期间隆重….

由于Python具有強大的延展性,可以很容易的与別人分享自己所写的程序代码,因此也很容易汇入各式各样….

十九届五中全会公报提出,要把科技自立自强作为国家发展的战略支撑。 公报更进一步强调了科技的自立自强,….

根据证监会网站披露的信息,11月4日,上海人工智能初创公司依图科技已经向证监会递交了招股书。如果通….

互联网时代快速发展,人工智能早已逐步渗透各行各业,在生活中我们也不难发现,从指纹识别、人脸识别到专家….

作者: 潘寅茹 老吾老以及人之老。日本是全世界最老的国家,中国应对老龄化可以借鉴日本的不少经验。刚刚….

小米开发者大会上,小米副总裁、技术委员会主席崔宝秋发表演讲。他介绍,小爱同学累计唤醒次数617亿次,….

据美国趣味科学网站3日报道,麻省理工学院(MIT)研究人员称,他们发明了一款新人工智能模型,可以通过….

华为年度旗舰手机Mate40系列在国内发布,同时亮相的还有华为智选车载智慧屏,由于时间有限,华为并未….

美国大选投票当地时间11月3日拉开帷幕,而当天“如何移居加拿大”却在美国的网络搜索量暴增。据“谷歌趋….

日前,Gartner将边缘计算列为了2020年十大战略技术。边缘计算的信息处理以及内容收集和传递被放….

目前欧美疫情持续恶化,全球防疫形式依然十分严峻,而国内疫情在AI+大数据+互联网科技的助力下得到了有….

当我们在翻译软件上输入 Transformer is a novel neural network ….

距离全球被乔治·弗洛伊德(George Floyd)被跪害惨案震惊仅仅过了三个月。在美国的集体记忆中….

1、旧时,人们喜欢形容上海时冠以摩登二字,因为独一无二、中西合璧的上海气质。时隔百年,如今的上海,科….

地平线 日,由芯师爷主办、深福保集团冠名的2020 年度硬核中国芯领袖峰会暨评选颁奖盛典圆满落….

在世界银行的支持下,国际非营利组织“反饥饿行动”(Action Against Hunger)运用人….

一个晚申请了46天的商标,让华为陷入一场持续数年的商标争夺战。 北京知识产权法院近日公布的一份判决显….

据了解,《普通话小镇》由教育部语文出版社与腾讯游戏联合推出、腾讯游戏追梦计划与畅游共同研发,历经一年….

10月份,创客火亮相多场活动,为众多参与者带来了一场创客教育的无人机科技盛宴。 11月份,深圳市罗湖….

Biu~哈喽大家好,今天接着聊聊ADK的新功能。在ADK6.4的release中,有一个sink 新功能被正式release——Google Fast Pa…

内容:学习实现小型嵌入式语言的方法,学习单片机处理、显示信息的技术。…

好奇~!谷歌的 Edge TPU 专用 ASIC 旨在将机器学习推理能力引入边缘设备

在去年于旧金山召开的 Google Next 大会上,Injong Rhee 通过主题演讲披露了谷歌公司的两款全新硬件产品:一款开发单片,外加…

随着5G网络的深入推进,物联网的细分市场越来越多,科技企业纷纷加码,欲抢先布局占据有利位置。其中,智能汽车是未来生活的重要…

谷歌的Dataset Search开放至今,为什么还搜不到我的数据集?

本月早些时候,谷歌推出了数据集搜索专用引擎 Dataset Search,这是一个建立在元数据上的搜索引擎,可以对网络上数千个存储库…

2016年10月,新成立的国防创新委员会首次提出了一系列建议(该委员会是美国国防部高级领导的顾问机构,成员包括来自私营部门、…

1、刷屏的谷歌“猜画小歌“ 7月18日 Google 推出首款微信小程序,它采用了“人类绘画+人工智能猜题”的模式,让很多人…

从“跳一跳”之后,又有一款小程序游戏因其独特好玩的个性,在朋友圈C位出道了。 几天前,谷歌发布了一款名为“猜画小歌”…

最精练的基于STM32的PLC解释器核心算法源代码!!! 不仅可用于可编程解释执行的内核代码,也可以用于IC设计的IP核…

解析Android移动设备光电传感器技术在移动技术中,传感器是被测量信号输入的首要技术,也是传感器系统中的元件组成部分,它包括…

发表评论

电子邮件地址不会被公开。 必填项已用*标注