Modality란 각각의 데이터 타입의 특징에 맞게 분류하는 것 ⇒ 이에 맞게 모델을 선택한다. =Inductive bias를 고려한다.
따라서 Modality의 특징을 잘 정의하고 모델을 선택하는 과정이 중요하다.
다시 Multi Modal로 돌아와서 살펴보면 아래 그림처럼 모델의 input으로 음성, 텍스트, 비디오 등 다양하게 넣기 때문에 다양한 관점(Multi Modality)에서 볼 수 있다. 또한 중요한 것은 Modality에 맞는 모델을 각각 만들어서 넣어주어야 한다는 점이다.
Biomedical data modality
One-hot encoding
원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
Vocab의 크기가 커질 수록 0 값이 많아지기 때문에 Sparse 하다는 문제점이 존재한다. 그러나 Biomedical 분야에서 DNA나 Protein의 경우 그만큼 많은 token이 필요하지 않기 때문에 one-hot encoding을 사용해도 괜찮다.
DNA A / T / G / C → 4가지만 존재 1, 2, 3, 4 로 표현하지 않는 이유는 이렇게 표현하면 scalar 값은 크기를 갖기 때문에 이 크기가 모델에 반영될 수도 있기에 공평하게 값을 주기 위해 scalar 값보다 one-hot encoding을 사용한다.
Protein 단백질은 20가지 아미노산으로 구성되어 있다.
One-hot encoding을 사용해도 괜찮지만 그래도 0 값으로 인해 weight 효과가 사라지기 때문에 1D-CNN, Learnable Embedding, Pretrained Embedding 등을 사용한다.
Central dogma
Central dogma란 한국어로는 중심원리로, 생명 현상을 나타내는 정보는 DNA가 Transcription 되어서 RNA가 되고 RNA가 Translation 되면 Protein이 되며 그 역은 성립되지 않는다.
DNA는 각 사람 기능을 만드는 기본 설계도이다. A,T,C,G로 표현한다.
DNA가 RNA가 되는 것을 Transcription이라고 한다. 같은 유전자를 가져도 개인별로 expression level이 다르다. 건강한 사람과 질병을 가진 사람의 Gene Expression pattern 차이점을 분석할 수 있다. ex) 암 세포 vs 정상 세포
Protein은 20개의 Amino acid로 표현된다. 인체 내에서 Functional unit으로 질병의 therapeutic Target이 된다. 가장 간단한 방법이 one-hot encoding으로 표현하는 방법이며 그 외에도 다양한 표현 방식이 존재한다.
Single-Cell RNA sequencing
원래는 전체 RNA를 가지고 sequencing을 했었는데, 기술의 발전으로 Single-cell에 대해 Sequencing을 하여 좋은 결과를 얻을 수 있다.
Compound
원자들과 화학적 결합으로 이루어진다. (의약품) Protein과 상호작용하여 인체내에서 중요한 biological process를 유도한다.
Disease
Text로 주어지거나 코드로 주어지는 것을 one-hot encoding 한다.
Biomedical Network
인체 내부 모든 작용들은 각 요소들의 상호작용으로 이루어진다. Network를 연결시켜 Phenotype에 연결될 수 있다.
Biomedical image
이미지 자체를 벡터화 되어 있기 때문에 이를 사용한다.
Spatial Data
Cell 별 Gene expression을 볼 수 있는 데이터 다양한 cell 환경 조건에 따른 Drug의 효능을 예측할 수 있다.
Text
PubMed 같은 Scientific Literature를 가지고 Knoweledge를 습득한 BioBERT 등을 활용할 수 있다.