본문 바로가기

AI 중급이론3

Multi-Modal 학습이란 무엇일까? 오늘은 Multi-Modal 학습에 대해 알아보고, 어떤 분야가 있는지도 알아보려 한다. 먼저, Multi-Modal 학습이란 단순한 CNN, RNN처럼 이미지, 텍스트등 하나의 데이터만 사용해서 학습하는 것이 아니라, 여러 종류의 데이터를 이용해 학습하는 것으로, 예를 들어 이미지를 보고 텍스트를 생성하는 등의 task가 multi-modal task인 것이다. Multi-modal 학습은 잘 활용하면 강력한 도구가 될 수 있지만, 그만큼 학습에 어려운 점들이 있다. 이러한 난관은 크게 3가지로 나눠진다. 1. 데이터의 표현 방법이 다르다 audio는 1d data, image는 2d data등으로 표현 되는 등, 데이터들의 표현 방법이 달라 함께 사용하기에 어려운 점이 있다. 2. Data imbal.. 2023. 4. 11.
CNN의 학습과정을 시각화하는 방법 전통적으로 CNN은 black box과정으로, CNN이 어떻게 학습되고 있는지, 왜 잘되는지, 무엇을 기준으로 CNN이 판단을 내리는지 알 수가 없어 어떻게 CNN을 발전시킬 수 있는지 알 수 없었다. 그러나 언제나 방법은 있는법. 이번에는 여러가지 CNN 시각화(CNN visualization) 방법에 대해 알아보려고 한다. 간단한 예시를 통해 시각화가 어떤 것인지부터 알아보자. 아래는 deconvolution을 통한 시각화의 일종이다 아래의 low level feature를 보면 점, 선과 같은 간단한 물체를 찾는 layer가 있음을 알 수 있고, high level feature에서는 좀 더 의미있는 물체를 찾는 layer가 있음을 볼 수 있다. 이를 이용한 것이 아래의 그림이다. Filter vi.. 2023. 4. 7.
Transformer에 대해 알아보자 Transformer가 나오기 전까지 Sequential data는 RNN, LSTM, GRU와 같은 모델들을 이용해 처리했으나, transformer의 등장으로 sequential data를 처리할 때 대부분 transformer를 사용하게 되었으며, tranformer를 이용해 BERT, ViT와 같은 유명한 모델들이 탄생할 수 있었다. 오늘은 그 transformer에 대해 간략하게 알아보고자 한다. Sequential data를 처리하기 힘들게 하는 요인은 길이가 정해져 있지 않다는 것도 있지만, 데이터의 순서가 바뀌었을때 같은 내용을 가질수도 있고 다른 내용을 가질 수도 있는 등, sequence의 변화에 따라 고려할 점이 많기 때문이다. Transformer는 이런 여러 어려움을 수반하는 se.. 2023. 3. 27.