딥러닝/Bio-Med

Health system-scale language models are all-purpose prediction engines

StoneSeller 2023. 6. 11. 01:18

네이쳐 article을 읽고 정리

 

Main

  • 의사들은 환자 병력 정보, 영상 검사 결과 등 다양한 기록들을 보고 궁극적으로 note에 문서화하게 된다.
  • EHR 같은 정형화된 데이터는 데이터 프로세싱이 어렵고 학습을 해도 실제로 사용할만한 결과를 얻기 어렵다. (last mile problem)
  • LLM은 자연어에 대해 독해와 해석에 있어서 영향력있는 결과를 얻을 수 있는 정도까지의 발전이 이루어졌다.

  본 article을 작성한 저자들은 LLM이 의사가 작성한 note를 읽음을 통해 광범위한 임상 및 운영 업무 전반에 걸쳐 의사 결정을 지원할 수 있을 것이라고 바라보았다.

저자들은 note들과 electronic order이 중심이 되는 clinical 워크 플로우와 실시간으로 통합될 수 있는 LLM 기반 시스템인 NYUTron을 개발하였다. 
즉, 모든 의료 예측 분석을 자연어처리 문제로 바라보고 범용 의료 예측 엔진으로 LLM을 사용하였다고 볼 수 있다. 

 

 

NYUTon 모델은 구조화 하지 않은 임상 노트를 가지고 (1) 30일 내 재입원 예측, (2) 병원 내 사망 예측, (3) 동반 질환 지수 예측, (4) 입원 기간(LOS; Length of Stay) 예측, (5) 보험 거부 예측을 수행했고 78.7–94.9%의 AUC 성능을 보였다. (기존 모델에 비해 AUC가 5.36–14.7% 향상)

 

 

Language model-based clinical prediction

 

1. Data Collection → 2. Pretraining  → 3. Fine-tuning  → 4. Deployment

 

 

1. Data Collection

라벨링이 되어있지 않은 많은 양의 Clinical note와 앞서 소개한 5가지 task에 대해 라벨링이 된 clinical note를 수집하였다.

라벨링이 되어있지 않은 데이터세트인 'NYU Notes'는 4개 병원의 387,144명의 환자로부터 얻은 725만개의 임상 기록(방사선 사진, 병력 및 신체 검사 등)으로 구성되어 있으며, 2011년부터 2020년 5월까지 41억개의 단어 corpus로 큐레이션하였다.

라벨링 데이터셋은 1~10년간의 입원 환자(55,791~413,845명)의 clinical note에 대해서 라벨링이 되어있다.

 

2. Pre-training & 3. Fine-tuning

BERT를 사용해서 Masked Language Modeling으로 Pre-training을 진행하였다.
라벨링 되어있는 데이터로는 Fine-tuning을 진행하였다.

 

 

Overall performance on five tasks

두 가지 test 데이터 셋으로 평가하였다.

1. 학습 데이터와 같은 시점대의 샘플링된 clinical data
2. 학습 데이터의 시점대의 이후 데이터의 샘플링된 데이터

NYUTron과 gradient-boosted tree 모델(Structured baseline)과 비교하였다.

 

 

병원 내 사망률, 재입원 여부, LOS, 보험 거부 예측 task에서 NYUTron의 AUC는 기존 예측 모델보다 5.36-14.7% 상승한 78.7-94.9%의 성능을 달성하였다.
동반 질환 지수 예측 task에서는 AUC의 중앙값은 89.4% ± 0.275%였다.

 

Retrospective study of readmission

  • in-domain pretrained model이 out-domain pretrained model 보다 성능이 좋지만, 충분한 out-domain finetuning이 이루어진다면 그 차이는 거의 없다.
  • all-site pretrain에 test-site로 finetune 하는 것이 가장 성능이 좋았다.

 

 

Method

Pretraining dataset

NYU Notes

  • billing 관련이나 invalid, empty로 라벨링 된 경우는 제외
  • 949:50:1 = train : valid : test
  • 15% 마스킹

 

Fine-tuning dataset

NYU Readmission

  • 환자가 퇴원 후 30일 이내에 입원 소견서가 있는 경우 '재입원' 으로 라벨링
  • 재활, 투석은 급성 치료 입원이 아니기 때문에 제외
  • 8:1:1 = train:valid:test

 

Preprocessing

Pretraining dataset

  • note는 보통 512 token 이상인 경우가 많다. 따라서 우선 nltk를 사용해 sentence 단위로 쪼갠 뒤 512 토큰이 넘지 않는 선에서 문장을 합쳐서 grouping

 

 


Reference

https://www.nature.com/articles/s41586-023-06160-y

728x90