神秘顾客 研究专家!

赛优市场店员积累了丰富的神秘顾客经验,严谨,务实,公平,客观.真实的数据支持!

24小时咨询热线:13760686746

栏目分类
神秘顾客学习

当前位置:沈阳专业第三方市场调研公司 > 神秘顾客学习 >

热点资讯

沈阳专业第三方市场调研公司这么的自珍目力枢纽很容易受到打算模式的影响

发布日期:2023-12-30 02:44    点击次数:65

作家:韩东辰沈阳专业第三方市场调研公司

来自清华大学的估计者提倡了一种新的珍目力范式——代理珍目力 (Agent Attention)。

频年来,视觉 Transformer 模子得到了极大的发展,联系责任在分类、分割、检测等视觉任务上齐取得了很好的效力。但是,将 Transformer 模子应用于视觉范围并不是一件省略的事情。与当然话语不同,视觉图片中的特征数目更多。由于 Softmax 珍目力是泛泛复杂度,平直进行全局自珍目力的打算通常会带来过高的打算量。针对这一问题,先前的责任往往通过减少参与自珍目力打算的特征数目的枢纽来裁减打算量。举例,联想寥落珍目力机制(如 PVT)或将珍目力的打算限制在局部窗口中(如 Swin Transformer)。尽管有用,这么的自珍目力枢纽很容易受到打算模式的影响,同期也不成幸免地焚烧了自珍目力的全局建模智商。

与 Softmax 珍目力不同,线性珍目力将 Softmax 解耦为两个孤立的函数,从而约略将珍目力的打算轨则从 (query・key)・value 转化为 query・(key・value),使得总体的打算复杂度裁减为线性。但是,现在的线性珍目力枢纽效力显著逊于 Softmax 珍目力,难以本色应用。

珍目力模块是 Transformers 的重要组件。全局珍目力机制具邃密的模子抒发智商,但过高的打算资本限制了其在万般场景中的应用。本文提倡了一种新的珍目力范式,代理珍目力 (Agent Attention),同期具有高效性和很强的模子抒发智商。

具体来说,代理珍目力在传统的珍目力三元组 (Q,K,V) 中引入了一组额外的代理向量 A,界说了一种新的四元珍目力机制 (Q, A, K, V)。其中,代理向量 A 领先算作查询向量 Q 的代理,从 K 和 V 中团员信息,然后将信息播送回 Q。由于代理向量的数目不错联想得比查询向量的数目小得多,代理珍目力约略以很低的打算资本已矣全局信息的建模。

此外,本文表现注解代理珍目力等价于一种线性珍目力范式,已矣了高性能 Softmax 珍目力和高效线性珍目力的当然交融。该枢纽在 ImageNet 上使 DeiT、PVT、Swin Transformer、CSwin Transformer 等模子架构取得了权臣的性能普及,约略将模子在 CPU 端加快约 2.0 倍、在 GPU 端加快约 1.6 倍。应用于 Stable Diffusion 时,代理珍目力约略将模子生成速率普及约 1.8 倍,并权臣提高图像生成质地,且无需任何额外教师。

枢纽

在本文中,咱们创新性地向珍目力三元组 (Q,K,V) 引入了一组额外的代理向量 A,界说了一种四元的代理珍目力范式 (Q, A, K, V)。如图 1 (c) 所示,在代理珍目力中,咱们不会平直打算 Q 和 K 之间两两的不异度,而是使用少许的代理向量 A 来汇集 K 和 V 中的信息,进而呈递给 Q,以很低的打算资本已矣全局信息的建模。从全体结构上看,代理珍目力由两个旧例 Softmax 珍目力操作构成,况且等效为一种广义的线性珍目力,已矣了高性能 Softmax 珍目力和高效线性珍目力的当然交融,因而同期具有二者的优点,即:打算复杂度低且模子抒发智商强。

图 1:Softmax 珍目力、线性珍目力与代理珍目力机制对比

1. 代理珍目力

图 2:代理珍目力暗示图

上图即为代理珍目力的暗示图,底下给出具体数学样式。为了书写浅薄,咱们将 Softmax 珍目力和线性珍目力分别缩写为:

其中,Q,K,V 分别为 Query、Key、Value 矩阵,透露 Softmax 函数,为线性珍目力中的映射函数。则代理珍目力不错透露为:

另一个等效的透露为:

20世纪90年代末,一本畅销网络小说《第一次亲密接触》中,女主人公“轻舞飞扬”双手、双颊反复出现蝶形红斑,后被确诊为系统性红斑狼疮,最终因病离世。这本书将一个“美丽而忧伤”的疾病引入大众眼前。自此,人们谈“狼”色变。

其中 A 为新界说的代理矩阵。

如公式 (3) 和暗示图第一转所示,代理珍目力由两个 Softmax 珍目力操作构成,分别为代理特征团员和播送。具体来说,咱们领先将 A 算作 Query,在 A、K 和 V 之间进行珍目力打算,从总计特征中积蓄信息,得到代理特征

。随后,咱们将 A 算作 Key,

算作 Value,沈阳专业第三方市场调研公司和 Q 进行第二次珍目力打算,将代理特征中的全局信息播送回每一个特征,并取得最终输出 O。这么一来,咱们幸免了 Q 和 K 之间不异度的打算,而是通过代理向量已矣了每个 query-key 之间的信断交换。不错看到,在这一打算范式中,少许的代理特征 A 充任了 Q 的 “代理东说念主”—— 从 K 和 V 中汇集信息并呈递给 Q,因而本文将这种珍目力机制定名为代理珍目力。本色应用中,咱们将 A 的数目斥地为一个小的超参数 n,从而以线性打算复杂度

已矣了全局建模。

值得指出的是,如公式 (4) 和暗示图第二行所示,代理珍目力本色上将高性能的 Softmax 珍目力和高效的线性珍目力交融在了一齐,通过使用两次 Softmax 珍目力操作已矣了广义线性珍目力范式,其中等效映射函数界说为

本色应用中,代理向量不错通过不同的枢纽取得,举例斥地为一组可学习参数,或通过池化等口头从输入特征中得到。咱们也不错使用愈加优胜的枢纽来取得代理向量,举例 Deformable Points、Token Merging 等。本文中,咱们秉承省略的池化来获取代理向量。

2. 代理珍目力模块

为了更好地进展代理珍目力的后劲,本文进一步作念出了两方面的鼎新。一方面,咱们界说了 Agent Bias 以促进不同的代理向量聚焦于图片中不同的位置,从而更好地讹诈位置信息。另一方面,算作一种广义的线性珍目力,代理珍目力也濒临特征万般性不及的问题,因此咱们秉承一个轻量化的 DWC 算作万般性还原模块。

在以上联想的基础上,本文提倡了一种新的代理珍目力模块,其结构如下图:

图 3:代理珍目力模块

估计了 Softmax 珍目力和线性珍目力的上风,代理珍目力模块具有以下秉性:

(1) 打算复杂度低且模子抒发智商强。之前的估计往往将 Softmax 珍目力和线性珍目力视为两种不同的珍目力范式,试图惩办各自的问题和局限。代理珍目力优雅地交融了这两种珍目力样式,从而当然地秉承了它们的优点,同期享受低打算复杂性和高模子抒发智商。

(2) 约略秉承更大的感受野。收货于线性打算复杂度,代理珍目力不错当然地秉承更大的感受野,而不会增多模子打算量。举例,不错将 Swin Transformer 的 window size 由 7^2 扩大为 56^2,即平直秉承全局自珍目力,而统统不引入额外打算量。

执行终局

1. 分类任务

代理珍目力是一个通用的珍目力模块,本文基于 DeiT、PVT、Swin Transformer、CSwin Transformer 等模子架构进行了执行。如下图所示,在 ImageNet 分类任务中,基于代理珍目力构建的模子约略取得权臣的性能普及。举例,Agent-Swin-S 不错取得稀少 Swin-B 的性能,而其参数目和打算量不到后者的 60%。

图 4:ImageNet 图片分类终局

在本色推理速率方面,代理珍目力也具有权臣的上风。如下图所示,在 CPU/GPU 端,代理珍目力模子约略取得 2.0 倍 / 1.6 倍控制的加快,同期取得更好的性能。

图 5:本色测速终局

2. 检测和分割

在检测和分割任务中,相较于基础模子,Agent Transformer 也约略取得极端权臣的性能普及,这在一定经由上收货于代理珍目力的全局感受野。

图 6:COCO 物体检测与分割终局

图 7:ADE20K 语义分割终局

3.Agent Stable Diffusion

绝顶值得指出的是,代理珍目力不错平直应用于 Stable Diffusion 模子,无需教师,即可加快生成并权臣普及图片生成质地。如下图所示,将代理珍目力应用于 Stable Diffusion 模子,约略将图片生成速率普及约 1.8 倍,同期普及图片的生成质地。

图 8:Stable Diffusion, ToMeSD 和 AgentSD 的定量化终局

下图中给出了生成图片的样例。不错看到,代理珍目力约略权臣裁减 Stable Diffusion 模子生成图片的歧义和瑕玷,同期普及生成速率和生成质地。

图 9:生成图片的样例

4. 高分辨率与大感受野

本文还商酌了分辨率和感受野对模子性能的影响。如下图所示,咱们基于 Agent-Swin-T 将窗口大小由 7^2 逐步扩大到 56^2。不错看到,跟着感受野的扩大,模子性能稳步普及。这表现尽管 Swin 的窗口鉴别是有用的,但它仍是不成幸免地损伤了模子的全局建模智商。

图 10:感受野大小的影响

下图中,咱们将图片分辨率由 256^2 逐步扩大到 384^2。不错看到,在高分辨率的场景下,代理珍目力模子抓续展现出权臣的上风。

图 11:高分辨率场景

转头

本文的孝顺主要在三个方面:

(1) 提倡了一种新颖、当然、有用且高效的珍目力范式 —— 代理珍目力,它当然地交融了高性能的 Softmax 珍目力和高效的线性珍目力,以线性打算量已矣存效的全局信息建模。

(2) 在分类、检测、分割等诸多任务中充分考据了代理珍目力的优胜性,绝顶是在高分辨率、长序列的场景下,这或为斥地大圭臬、细粒度、面向本色应用场景的视觉、话语大模子提供了新的枢纽。

(3) 创新性地以一种无需教师的口头将代理珍目力应用于 Stable Diffusion 模子沈阳专业第三方市场调研公司,权臣普及生成速率并提高图片质地,为扩散模子的加快和优化提供了有用的新估计念念路。



友情链接:

Powered by 沈阳专业第三方市场调研公司 @2013-2022 RSS地图 HTML地图

Copyright 站群系统 © 2013-2022 粤ICP备09006501号

在线客服系统