Notice

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

연세대 인공지능학회 YAI

[논문 리뷰] Focal Self-attention for Local-Global Interactions in Vision Transformers 본문

컴퓨터비전 : CV/CV 논문 리뷰

[논문 리뷰] Focal Self-attention for Local-Global Interactions in Vision Transformers

_YAI_ 2023. 1. 14. 18:09

YAI 9기 김석님이 비전논문팀에서 작성한 글입니다.

Focal Self-attention for Local-Global Interactions in Vision Transformers

0. Abstract

목적
- Self attention을 통한 짧은 것에서부터 긴 단위까지 visual dependency를 모두 capture할 수 있도록 설계하면서도 quadratic computational overhead로 인한 resolution이 높은 task에 관해서 어려운 상황도 극복할 수 있어야 함
Method
- SoTA model의 경우 coarse-grain이나 fine-grained local attention을 적용하여 computational & memory cost와 성능을 개선하는 방식을 채택함
- 하지만 이와 같은 방법들은 Multi-Layer transformer의 self-attention mechanism의 modeling에 문제를 가져오기 때문에 sub-optimal한 방법에 그치지 않음
- Focal self-attention mechanism에서 각 token은 인접한 token을 정밀하게 구성을 구체화(fine granularity)하고 멀리 있는 경우에는 coarse granularity를 보이는 특징을 가짐
Focal Transformer Proposal
- Focal self-attention이라는 fine-grained local과 coarse-grained global interaction을 모두 포함하는 새로운 mechanism을 제시함
- 위 mechanism을 사용하여 Vision Transformer model을 변형한 Focal Transformer를 선보여 SoTA의 ViT보다 image classification과 object detection 면에서 모두 월등히 뛰어난 성능을 보임

1. Backgrounds

Transformers

NLP에서 transformer가 널리 알려진 model인 만큼 CV에서도 이를 사용하려는 수요가 늘어남
ViT에서 처음으로 transformer를 CV에 적용하였는데 이와 같은 full-Transformer model이 image classification, object detection, semantic segmentation 등에 모두 좋은 성능을 보일 뿐만아니라 action recognition, object tracking, scene flow estimation 등에도 좋은 결과를 보임
Self-attention
- 대개 사용하는 CNN과는 달리 Transformer의 가장 큰 feature이자 핵심
- 각 transformer layer마다 global content에 따라 model에 필요한 region 별 image 자료와 short-range와 long-range 모두 각각 상호작용을 진행
- 이러한 self attention을 사용하게 되면 기존 CNN같이 local surrounding은 물론 global context까지 동시에 포착이 가능함
- 이런 점에서 object detection과 segmentation과 같이 image의 resolution이 높은 task의 경우, global하고 fine-grained한 self-attention 방법을 사용하는 것은 grid에 따른 quadratic computational cost를 절감한다는 점에서, self-attention 사용은 거의 자명하다.

Proposal

Focal transformer는 새로운 방식의 self attention mechanism을 제안하여 resolution이 높은 input에 대하여 Transformer layer에서 local, global 상호작용이 모두 진행되도록 제안

→ 이때, 근접한 region이 멀리 떨어진 region보다 visual dependency가 더 크다는 점에서 local region에는 fine-grained self attention을 , global region에는 coarse-grained attention을 적용한다는 것이 차이가 있음

이때, feature map에 있는 query token은 인접한 곳 중에서 가장 granularity가 큰 곳에 attend하고 멀리 떨어진 곳의 경우 이를 summarize한 token을 attend하여 coarse-grained한 visual dependency를 포착하도록 한다는 점에서 query로부터 멀리 떨어질수록 granularity가 coarse하도록 설계함

→ 이런 점에서 이와 같은 구조는 full self-attention mechanism과는 달리 self-attention 연산에 사용되는 token을 최대한 적게 사용하면서 resolution이 높은 feature map을 완전히 cover할 수 있다는 점에서 매우 효율적이고 이를 각 token이 focal manner에 따라 attend한다는 점에서 focal self-attention이라 칭함

이러한 focal self-attention을 기반으로 설계한 mechanism이 focal transformer이고 아래와 같이 두 가지 과정을 거침
1. Resolution이 높은 image에 관하여 합리적인 연산 비용을 사용할 수 있도록 multi-scale 구조로 설계
2. Feature map을 multiple window로 나누어 동일한 주변 공간을 공유하도록 하여 각 token마다 focal self-attention을 적용하는 불필요한 행동을 없앰
이와 같은 focal self-attention의 효율성을 입증하기 위해 image classification, object detection & segmentation 등 종합적으로 연구를 진행하였고 그 결과 기존 transformer의 model size와 complexity가 유사함에도 SoTA와 비교하였을 때 월등히 좋은 결과를 보임

2. Architecture

Focal Transformer

Resolution이 높은 vision task에도 적용하기 위해 위와 같이 early stage에서 high resolution feature map을 얻는 구조로 설계하여 아래와 같은 과정을 거침
1. Input image($I \in R^{H\times W \times 3}$)의 경우 4x4 patch로 partitioning 진행하여 $4\times 4 \times 3$ 차원의 $\frac H 4 \times \frac W 4$개의 visual token을 output으로 정함
2. Patch embedding layer에 convolution layer를 filter size를 4x4, stride도 4로 지정하여 $d$차원의 hidden feature로 projection 진행
이로부터 얻은 feature map은 4개의 stage의 focal Transformer block을 거침
- 이때, 각 stage마다 focal Transformer block은 $N_i$($i \in {1,2,3,4}$)개의 focal Transformer layer로 구성됨
- 각 stage마다 patch embedding layer를 추가적으로 사용하여 factor 2만큼의 공간을 축소하고 feature dimension은 2만큼 증가함
Image classification의 경우 마지막 stage의 output의 평균을 받아 classification layer에 전달하는 방식을 사용함
Object detection의 경우 feature map의 detection 방식에 따라 최근 3개나 4개 전부의 stage를 detector head에 feed를 진행함
여기서 input feature의 dimension을 $d$, model capacity의 경우 각 stage의 focal Transformer layer의 개수 ${ N_1,N_2,N_3,N_4}$에 따라 customizing이 진행됨
Self-attention
- 기존의 방법의 경우 fine-grain의 short과 long-range interaction을 모두 다룰 수 있지만 resolution이 높은 feature map의 attention의 경우 computational cost가 상당히 많이 들게 됨
  
  → Feature map의 size가 $\frac H 4 \times \frac W 4 \times d$의 경우, self-attention의 complexity가 $O((\frac H 4 \times \frac W 4 )^2d)$로 object detection에서는 $min(H,W)$가 적어도 800은 요구된다는 점에서 시간과 메모리를 상당히 많이 소모하는 것을 알 수 있음
- 이를 해결하기 위해 focal self-attention 방법을 사용함

3. Approach