연세대 인공지능학회 YAI

[강의 리뷰] The Background of Perception (2) 본문

강의 & 책

[강의 리뷰] The Background of Perception (2)

_YAI_ 2022. 5. 31. 10:23

[Perception 강의 리뷰] 1주차: The Background (2)

* YAI 9기 김동하, 박준영님이 Perception 강의팀에서 작성한 글입니다.


2. Visual Stimuli

2-1. Visual Stimuli

위와 같은 전자기파의 스펙트럼 중에서, 인간은 380-750 nm의 wavelength에 해당하는 가시광선(light) 만을 인식할 수 있도록 진화해왔다. 다른 스펙트럼의 전자기파는 볼 수 없는 대신 측정으로 존재를 알 수 있다. 사실, 다른 동물들도 볼 수 있는 영역은 동물마다 차이가 있겠지만 대부분 이 영역과 비등비등하다. 이는 다음과 같은 이유가 있겠다.

  • Ultra Violet 영역 이전
    • 자외선 및 그보다 frequency가 높은 electromagnetic wave는 에너지가 높기 때문에 protein의 tertiary structure를 파괴하는 등 세포 구조를 파괴시킬 수 있다.
  • Infrared Radiation 영역 이후
    • 해당 영역의 electromagnetic wave는 heat으로 detect하도록 진화해온 경우가 많다고 한다. 예를 들면 뱀이 있다.
  • 팀 세션 논의 사항: 적외선이나 자외선을 볼 수 있다면 이득이 있을 수도 있을 텐데, 왜 인간은 가시광선만을 볼 수 있는 것인가?
    • 진화 과정에서 많은 이유가 있을 수 있지만, 지구에 도달하는 태양빛의 frequency range가 가시광선과 비슷하기에 가시광선을 볼 수 있도록 진화했을 것이라고 추측할 수 있을 것 같다.

2-2. Making an Image

2-2-1. Are there actually an image?

빛은 Electromagnetic Wave인 동시에 Particle(Photon)이다. Photon들은 세상 속에서 배회하며 수많은 원인에 의해 반사, 회절, 굴절 등의 현상을 겪게 된다. 우리는 image를 보는 것이 아니라 Photon들의 혼란스러운 흐름을 보는 것이며, 우리가 물체라고 인식하는 것은 모든 가능한 방향으로부터 반사되어 눈에 도착한 Photon일 뿐이다.

즉, 이러한 Photon의 Flux를 통해 우리는 Image를 만들어내는 것이다.

 

2-2-2. "Eye is like a Camera"

생물학적인 Eyeball의 구조가 Camera와 유사하다. 자세히 보면 Flux를 받아들이는 Aperture는 Pupil과 대응되고, 빛이 굴절되는 Lens는 Eyeball의 Crystalline Lens와 대응되고, 상이 맺히는 Film은 Retina와 대응된다. Refraction이 처음 일어나는 곳이 Lens가 아닌 Cornea라는 세세한 차이가 있으나, 여기서는 trivial한 차이이다.


3. Organization of the Human Visual System

3-1. The Eye

우선, 위의 결론에서처럼 우리는 광자의 흐름을 받아들여 ‘특정 과정’을 통해 처리하여 image를 만들어내게 된다. 빛이 retina로 도달하기까지 눈에서도 역시 여러 과정을 거치게 되는데, 이 functionality 또한 perception을 이해하기 위해 중요하게 여겨야 한다.

 

3-1-1. Overall Eye

  • Cornea
    • 인간이 볼 수 있는 가시광선 영역의 빛의 처리 과정에서의 첫 관문이다.
    • Cornea의 Refractive Ability, 즉 굴절은 이 function의 첫 단추가 된다.
    • Cornea 역시 Air와 Refractive Index가 다르기 때문에 Refractive Ability가 존재하며, Refraction에서의 주된 역할을 수행한다.
  • Lens (Crystaline Lens)
    • Cornea과 함께 Refraction이 일어나게 하는 구조이다.
    • 연결된 Zonule Fibers, Ciliary Muscle을 통해 Lens의 두께를 조절한다.
    • 위의 작용으로 초점거리를 조절하여 상이 Retina에 잘 맺힐 수 있도록 한다.
    • Lens의 두께가 적절하게 바뀌지 못하면 근시나 난시 등이 일어날 수 있다.

다른 구조들도 많으나, eye의 functionality에 대해서는 trivial하다고 한다.

 

3-1-2. Retina

이제 상이 맺히는 곳인 Retina의 구조를 자세히 살펴보자.

  • Optic Disk (papilla)
    • Neural Axon이 눈으로부터 벗어나 Optic Nerve를 구성하고 두뇌의 영역까지 Visual Information을 전달한다.
    • 따라서 해당 부분에는 신경이 밀집해있기 때문에 뒤에서 등장할 Photoreceptor Cell이 존재하지 않아 해당 부분에 맺힌 상을 볼 수 없다.
  • Macula Lutea (황반)
    • 눈에 있는 Retina의 주변에 있는 달걀 형태의 유색 영역이다.
  • Fovea (중심와)
    • Mucula Lutea에서 중앙 부분에서 다른 색으로 관찰할 수 있는 부분이다.
    • 세부 사항에 대해 가장 큰 Sensitivity를 가지고 있으며 가장 좋은 Resolution을 가진다.
    • 우리가 무언가를 집중해서 보고 있다면 그것은 실제로 Fovea에 맺히고 있다고 생각할 수 있다.
  • Branch of Ophthalmic Vein, Artery
    • 신진대사가 활발한 눈에 산소 및 영양분을 전달하는 혈관이다.
    • 고연령자들에게 종종 발생하는 Macula Degeneration은 이 혈관 이상에 의해 일어난다.

3-1-3. Eye Tracking

눈의 초점을 따라 기록하는 Eye Tracking은 러시아의 Alfred가 처음 사용했던 방법이다. 아래 사진에서 Eye Tracking을 시도해보았을 때, 아래와 같은 결과를 얻을 수 있었다.

위의 결과는 Eye Tracking 시 50ms 간격으로 (20Hz에 해당한다.) 점을 찍고 이동 방향을 선으로 나타낸 것이다. 결과로부터 알 수 있는 것은 아래와 같은데, 시선은 saccadic (시선 도약) eye movement을 나타낸다.

  • 시선이 focus하는 부분은 random하지 않고, 오히려 information characteristics (such as the eyes, the mouth, the hairline...) 에 해당하는 lamdnark 부분에 focusing하고 있음을 알 수 있다.
  • focus하는 부분 외에는 fuzzy, blur하게 보인다.

이는 우리는 대부분의 정보를 생성하는 장면의 부분을 집중해서 보게 된다는 insight로 이어진다.


3-2. The Retina

Retina의 Anatomic Structure 외에도 중요한 특징들을 살펴보자. Retina는 Non-Neural Part와 Neural Part가 이어지는 부분으로, 이를 다시 생각해보면 처음으로 자극으로부터 신호가 만들어지는 부분이기에 그 중요성은 이루 말할 수 없을 것이다.

 

3-2-1. Cross Section of Retina

위의 그림은 Section of Retina를 나타낸다. (주: Avascular는 혈관이 없는 구조라는 뜻으로 상피조직에서 볼 수 있다.) 특징적인 구조를 나타내면 다음과 같다.

  • Retina는 Ganglion이 위치한 보라색 부분, Bipolar, Amacrine, Horizontal Cell 등이 위치한 노란색 부분, Photoreceptor Layer이 위치한 초록색 부분, 그리고 그를 덮고 있는 상피조직인 Pigment Epithelium으로 구성되어 있다.
    • Photoreceptor Layer 영역과 Vitreous Humor 사이에 두 층이 더 있다는 것을 알 수 있다. 이에 대해서는 여러 가지 목적이 있으나 결국에는 이 층들로 인해 Retina로 도달하는 빛의 양이 약간 줄어들게 된다.
  • Fovea는 2mm의 매우 작은 영역을 차지한다.
    • Fovea 내의 Foveola에서는 Vitreous Humor로부터 노란색, 보라색 부분을 거치지 않고 바로 빛이 Photoreceptor Layer로 들어감을 관찰할 수 있다.
    • 따라서 Foveola에서는 Highest Resolution으로 상을 관찰할 수 있다.

즉 위의 구조를 통해 Retina에까지 빛이 도달하기 위해 거치는 경로, 그리고 Fovea에서 Highest Resolution으로 상을 관찰할 수 있는 이유를 알 수 있다.

 

 

3-2-2. Detailed Structure of Photoreceptor Layer

이 Retina의 Photoreceptor Layer를 조금 더 자세하게 살펴보자. Photoreceptor Layer에서 각각의 cell 역할은 아래와 같다.

  • Photoreceptors: Rod Cell, Cone Cell
    • Photon을 받아들여 Image를 생성한다.
  • Bipolar cell
    • Horizontal and/or Vertical 방향으로부터 온 정보를 처리한다.
  • Ganglion Cell
    • 처리된 정보를 Optic Nerve로 전달한다.

왜 Photoreceptors는 가장 뒤쪽에 위치할까? Photoreceptor에서는 Metabolism(신진대사) 작용이 활발하게 일어나기 때문에 High Rate로 교환이 이루어지기 위해 Epithelium과 인접해야 한다.

 

 

3-2-3. Rods and Cones

아래 그림은 Rod(막대세포) 및 Cone(원뿔세포) Cell의 Retina 위치별 분포 양상, 그리고 Rod 및 Cone의 모양을 나타낸다.

Rod 및 Cone Cell의 이름은 각각의 형태로부터 유래하였다. Retina Center에 갈 수록 Cone이 지배적으로, Center에서 멀어질수록 Rods가 지배적으로 존재함을 알 수 있다.

아래 그림은 Retina 위치별 Rod 및 Cone의 distribution을 나타낸 그림이다. (실제로 강의에서는 아래 figure가 먼저 등장하였다.)

위의 그림 역시 Cone이 중심에서는 지배적으로 많고, Rod는 주변에 많다는 것을 알 수 있다. 특이한 점은 Center에는 Cone만 존재하는 부분이 존재한다는 점과, Optic Disk에서는 상술한 이유로 Rod와 Cone이 존재하지 않는다는 것이다. 왜 이렇게 두 가지의 형태가 각각 존재하는 것일까? 다음 영역에서 설명이 가능하다.

아래 그림은 Rod 및 Cone이 받아들일 수 있는 Luminance의 영역이다.

진화론적으로 Luminance가 극단적으로 강한 경우(태양광 등)와 극단적으로 약한 경우(밤, 암실 등) 둘 다에서 잘 볼 수 있도록 세포 하나가 진화하는 것은 쉽지 않다. 그러나 인간은 두 가지 경우 모두의 환경을 접하기 때문에 생활하기 때문에 각각의 환경에서 image를 만들어낼 수 있도록 두 가지 photoreceptor cell이 발달하게 되었다.

Rod는 Cone에 비해 Photon을 잘 인식할 수 있다. (Ganglion Cell으로의 전달 과정과 관련이 있다.) 그래서 어두운 부분에서는 Rod가 작은 Intensity의 빛에 대해서 작동할 수 있도록, 반대의 경우에는 Cone이 작동할 수 있도록 진화하게 된 것이다.

위의 그림은 Luminance 차이가 있을 때 Sodium-Potassium Pump에 의해 Rod Cell이 Active/Inactive 되는 것을 나타낸 것이다. 왼쪽의 경우 cGMP에 의해 Sodium-Potassium Pump가 활성화된 모습을, 오른쪽의 경우에는 cGMP가 Reduce됨에 따라 Pump가 비활성화되고 일방적인 농도 차에 의한 Potassium 이동만 활발하게 이루어지고 있는 모습을 볼 수 있다.


3-3. The Primary Visual Pathway

 

3-3-1. Brain’s Visual Pathway

위의 그림은 Retina 영역에서 생성된 신호가 뇌의 Visual Cortex까지 도달하는 과정 및 주변의 구조를 나타낸 그림이다. 특징적인 구조들을 설명하면 아래와 같다.

  • Red, Blue Pathway: 각각 신호가 전달되는 경로로 오른쪽 파란색의 image에 대한 신호는 모두 좌뇌, 왼쪽의 빨간색 image에 대한 신호는 모두 우뇌로 간다는 것이 특징적으로 눈여겨볼만 하다.
  • Primary Visual Cortex: 시각 자극에 대한 신호가 전달되는 최종 목적지로, 이곳에서 최종적인 처리가 이루어진다.
  • Edinger-Westphal nucleus: 빛의 양에 따라 Pupil의 크기를 조절하도록 근육으로 신호를 내보낸다.
  • Superior Colliculus: 눈의 움직임을 제어한다.
  • Thalamus: 시상

위에서 눈여겨볼 수 있다고 했던 부분은 오른쪽 파란색의 image에 대한 신호는 모두 좌뇌, 왼쪽의 빨간색 image에 대한 신호는 모두 우뇌로 전달되는 과정이라고 할 수 있을 것이다. 자세히 살펴본다면 오른쪽의 이미지는 왼쪽 및 오른쪽 눈에서 전부 좌측에 상이 맺혀, 좌뇌로 그대로 전달되고 있고, the other way around임을 알 수 있다.

유력한 추측 중 하나로 바다 생물이 육지로 진출하는 과정에서 포식자를 피하는 데 유리하기 때문에 이러한 진화 과정을 거쳤다고 한다.

 

3-3-2. Lateral Geniculate Nucleus of Thalamus

위의 그림은 Thalamus (시상) 중에서도 Visual Perception에 관여하는 부분인 Lateral Geniculate Nucleus (외측슬상핵)를 나타낸다. 왼쪽 그림에서 관찰할 수 있는 6가지 layer가 있는데,

  • 초록색 layer (4개): Parvocellular Layer
    • full view vision에 집중된, 즉 precision 및 color에 집중된 영역이다.
  • 파란색 layer (2개): Magnocellular Layer
    • movement 및 change에 집중된 부분이다.

또한 Retinotopy라는 개념이 등장하는데, 시각 시스템에서 세포들은 image의 Neighbor Relationship을 중심으로 해석하게 된다고 한다. 즉, 인접한 영역을 중심으로 해석하는 것이다. thalamus에서 정보가 처리되며 정보가 많이 바뀌진 않는 것처럼 보인다.


3-4. The Visual Cortex

이 부분에서는 Lateral과 Medial이라는 용어가 반복적으로 등장한다.

해부학에서 Lateral과 Medial이라는 용어는 해부학적 자세를 기준으로 Median(몸의 중심, 왼쪽 사진에서 흰 선 참고)으로부터 먼지 혹은 가까운지를 나타내는 term이다. Medial은 내측, 즉 Median에서 가까운 쪽을 나타내며, Lateral은 반대로 Median에서 먼 쪽인 외측을 의미하는 용어이다.

즉, Brain의 반쪽에 대한 Medial View는 오른쪽 그림과 같은 View가 된다고 할 수 있겠다. 해당 부분에서 Visual Area를 중점적으로 살펴볼 것이다.

 

 

3-4-1. V1: Primary Visual Area

Brain의 Medial View중에서도 Visual Space를 집중적으로 바라보자. 왼쪽의 색이 칠해진 부분이 Visual Space이며 가운데에서 V1, a.k.a. Primary Visual Cortex를 확인할 수 있다. 오른쪽은 뇌의 Vertical Plane(수직단면)을 나타내는데 Calcarine sulcus를 기준으로 위와 아래가 나뉜다.

위의 Retinotopy가 구조상 Cortex에서도 유지됨을 확인할 수 있고 이는 아래와 같은 원숭이 뇌를 이용한 실험으로 증명할 수 있었다. patternized stimulus를 오랜 기간 보여주었을 때 cortical activation이 나타남을 통해 확인하였다.

3-4-2. Other Higher-Order Visual Areas

위의 View로부터 V1 외에도 V2, V3, V4, VP, MT, MST와 같은 여러 가지 부분이 존재하고 있는 것을 확인할 수 있다. 이들은 V1으로부터 Low Level Information을 받아 정보를 처리하는데, 서로의 영역을 어느 정도 의존하는 것으로 보이며 점점 higher-order area에서는 retinotopy가 점점 줄어든다.


3-5. The Concept of Receptive Fields

Higher-Order Area에서 더 큰 Receptive Field를 가지고 있는 것을 확인할 수 있다. 보라색 영역이 Forvea 쪽의 Central Information을 처리한다면 초록색 영역에서는 extrastriate cortex와 대응된다. 즉 이전의 영역으로부터 온 정보들을 바탕으로 higher-order 부분에서는 더 넓게 참고할 수 있다는 것이다.

Comments