새소식

딥러닝/Bio-Med

Data Modality of Biomedical data

  • -

Data Modality

Modality가 무엇일까?  Multi-Modal 이라는 말을 많이 들어봤을 것이다. 

Modality란 각각의 데이터 타입의 특징에 맞게 분류하는 것
⇒ 이에 맞게 모델을 선택한다. = Inductive bias를 고려한다.

따라서 Modality의 특징을 잘 정의하고 모델을 선택하는 과정이 중요하다.

다시 Multi Modal로 돌아와서 살펴보면
아래 그림처럼 모델의 input으로 음성, 텍스트, 비디오 등 다양하게 넣기 때문에 다양한 관점(Multi Modality)에서 볼 수 있다.
또한 중요한 것은 Modality에 맞는 모델을 각각 만들어서 넣어주어야 한다는 점이다.

Recent Advances and Trends in Multimodal Deep Learning: A Review

 

 

 

Biomedical data modality

One-hot encoding

원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식

https://ai-ml-analytics.com/one-hot-encoding/

 

Vocab의 크기가 커질 수록 0 값이 많아지기 때문에 Sparse 하다는 문제점이 존재한다. 
그러나 Biomedical 분야에서 DNA나 Protein의 경우 그만큼 많은 token이 필요하지 않기 때문에 one-hot encoding을 사용해도 괜찮다. 

 

DNA
A / T / G / C → 4가지만 존재
1, 2, 3, 4 로 표현하지 않는 이유는 이렇게 표현하면 scalar 값은 크기를 갖기 때문에 이 크기가 모델에 반영될 수도 있기에 공평하게 값을 주기 위해 scalar 값보다 one-hot encoding을 사용한다.

https://www.researchgate.net/figure/Example-of-one-hot-encoding-of-the-DNA-sequence-TTTGACTCGT_fig2_345214812

 

Protein
단백질은 20가지 아미노산으로 구성되어 있다.

 

One-hot encoding을 사용해도 괜찮지만 그래도 0 값으로 인해 weight 효과가 사라지기 때문에
1D-CNN, Learnable Embedding, Pretrained Embedding 등을 사용한다.

 

 

Central dogma

 

Central dogma란 한국어로는 중심원리로,
생명 현상을 나타내는 정보는 DNA가 Transcription 되어서 RNA가 되고 RNA가 Translation 되면 Protein이 되며 그 역은 성립되지 않는다.

DNA는 각 사람 기능을 만드는 기본 설계도이다.
A,T,C,G로 표현한다.

DNA가 RNA가 되는 것을 Transcription이라고 한다.
같은 유전자를 가져도 개인별로 expression level이 다르다.
건강한 사람과 질병을 가진 사람의 Gene Expression pattern 차이점을 분석할 수 있다. ex) 암 세포 vs 정상 세포

Protein은 20개의 Amino acid로 표현된다.
인체 내에서 Functional unit으로 질병의 therapeutic Target이 된다.
가장 간단한 방법이 one-hot encoding으로 표현하는 방법이며 그 외에도 다양한 표현 방식이 존재한다.

 

 

Single-Cell RNA sequencing

https://www.technologynetworks.com/genomics/articles/recent-advances-in-single-cell-genomics-techniques-324695

원래는 전체 RNA를 가지고 sequencing을 했었는데, 기술의 발전으로 Single-cell에 대해 Sequencing을 하여 좋은 결과를 얻을 수 있다.

 

Compound

원자들과 화학적 결합으로 이루어진다. (의약품)
Protein과 상호작용하여 인체내에서 중요한 biological process를 유도한다.

 

Disease

Text로 주어지거나 코드로 주어지는 것을 one-hot encoding 한다.

 

Biomedical Network

인체 내부 모든 작용들은 각 요소들의 상호작용으로 이루어진다.
Network를 연결시켜 Phenotype에 연결될 수 있다.

 

Biomedical image

이미지 자체를 벡터화 되어 있기 때문에 이를 사용한다.

 

Spatial Data

Cell 별 Gene expression을 볼 수 있는 데이터
다양한 cell 환경 조건에 따른 Drug의 효능을 예측할 수 있다.

 

Text

PubMed 같은 Scientific Literature를 가지고 Knoweledge를 습득한 BioBERT 등을 활용할 수 있다.

 

 

 

728x90
Contents