일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- NLP #자연어 처리 #CS224N #연세대학교 인공지능학회
- Faster RCNN
- CNN
- nerf
- cv
- cl
- YAI 11기
- GaN
- CS231n
- Perception 강의
- Googlenet
- 3D
- VIT
- transformer
- YAI 9기
- 컴퓨터비전
- YAI 10기
- 자연어처리
- Fast RCNN
- 강화학습
- CS224N
- PytorchZeroToAll
- rl
- RCNN
- YAI 8기
- 컴퓨터 비전
- GAN #StyleCLIP #YAI 11기 #연세대학교 인공지능학회
- YAI
- 연세대학교 인공지능학회
- NLP
- Today
- Total
목록연세대학교 인공지능학회 (46)
연세대 인공지능학회 YAI
Lecture-14: T5 and Large Language Models ** YAI 9기 전은지님이 자연어강의팀에서 작성한 글입니다. T5 Ideas Which transfer learning methods work best, and what happens when we scale them up? → T5 What about non-English pre-trained models? → modify T5 for multilingual model How much knowledge does the model learn during pre-training? Does the model memorize data during pre-training? Which Transformer modifications work..
Vision Transformer(ViT) ** YAI 9기 조용기님이 비전논문심화팀에서 작성한 글입니다. 논문 소개 Papers with Code - Vision Transformer Explained Papers with Code - Vision Transformer Explained The Vision Transformer, or ViT, is a model for image classification that employs a Transformer-like architecture over patches of the image. An image is split into fixed-size patches, each of them are then linearly embedded, position emb..
Mask R-CNN ** YAI 9기 조용기님이 비전논문심화팀에서 작성한 글입니다. 1. Introduction 비전 분야에서 객체 감지와 시멘틱 세그멘테이션은 단기간에 빠르게 성장했다. 이러한 발전은 대부분 Fast/Faster R-CNN과 FCN같은 강력한 기준 시스템에 의해 이루어졌다. 이 시스템들은 개념이 직관적이며, 유연성과 강건성(robustness)을 가질 뿐만 아니라 빠른 훈련 및 추론이 가능하다. 이 논문의 목표는 인스턴스 세그멘테이션에 대해 이와 비슷한 수준의 프레임워크를 개발하는 것이다. 1-1. Instance Segmentation 인스턴스 세그멘테이션은 이미지 내 모든 객체의 올바른 탐지와 각 인스턴스에 대한 정확한 분할이 동시에 이루어져야 하는 도전적인 작업이다. 따라서 다음의..
**YAI 9기 강재범님이 기초1팀에서 작성한 글입니다. 1. Introduction 기존의 CNN을 발전시킨 모델 중 하나이다. 특징은 convolution layer의 kernel (filter) size가 모두 3x3이고, input image는 3 channel의 224x224 픽셀의 이미지를 받도록 설계되어 있다는 점이다. 또, layer의 개수 (11개, 13개, 16개, 19개)에 따라 4가지 모델이 있다. 각각 vgg11, vgg13, vgg16, vgg19로 부른다. 각가의 구조는 다음 그림과 같다. 'C' type은 마지막 layer의 kernel size가 1x1인데 일반적으로 vgg16이라 부르는 모델은 'D' type을 사용한다. 'A-LRN'에서 LRN은 당시에 ReLu acti..
Subword Modeling & Pretraining ** YAI 9기 전은지님이 자연어강의팀에서 작성한 글입니다. 1. Introduction 언어 모델링에서 중요한 부분 중 하나인 단어를 어떻게 표현할 것인가를 살펴보겠습니다. 만약 단어의 개수가 유한하다는 가정, 즉 finite vocabulary assumptions를 기반으로 할 경우에는 단어의 변환, 오타, 새로운 단어 등이 모두 unknown words로 동일하게 매핑되게 됩니다. 따라서 이러한 word structure 혹은 morphology를 다루는 방식이 필요하게 됩니다. 한편, 사전 학습된 대규모의 모델은 자연어 처리에 있어서 거의 표준이 되었고, 그 성능도 매우 뛰어납니다. 이러한 방법론에 대해서도 다뤄보겠습니다. 2. Subwo..
어텐션 (Attention) ** YAI 9기 전은지님이 자연어강의팀에서 작성한 글입니다. 1. Introduction 앞선 글에서 설명드렸던 Seq2Seq의 경우 하나의 hidden state가 모든 source text의 정보를 포함하고 있습니다. 이 때문에 sentimental analysis와 같은 단순한 태스크에서는 성능이 괜찮지만, translation과 같은 복잡한 태스크에서는 information bottleneck이 발생할 수 있습니다. 이 문제를 해결하기 위해 attention 모델이 제안되었습니다. Attention은 decoder의 각 step에서 encoder와 direct connection을 활용하여 source sentence의 특정 부분에 집중합니다. 사람이 실제로 번역을 ..
FPN + RetinaNet (Focal Loss) - (2) ** YAI 9기 조용기님이 비전 논문 심화팀에서 작성한 논문입니다. RetinaNet (Focal Loss) Papers with Code - RetinaNet Explained 1. Introduction 2020년 전까지의 object detecton milestones. 출처 : Murthy, C.B et al., Investigations of Object Detection in Images/Videos Using Various Deep Learning Techniques and Embedded Platforms—A Comprehensive Review. Applied Sciences. 2020. 당시의 SOTA object dete..
FPN + RetinaNet (Focal Loss) - (1) **YAI 9기 조용기님이 비전 논문 심화팀에서 작성한 글입니다. FPN Papers with Code - FPN Explained 1. Introduction Figure 1. (a) Using an image pyramid to build a feature pyramid. Features are computed on each of the image scales independently, which is slow. (b) Recent detection systems have opted to use only single scale features for faster detection. (c) An alternative is to reuse t..