일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- XGBoost
- Gradient Boosting Machine
- Explainable AI
- lime
- Gradient Tree Boosting
- deep learning
- Back-propagation
- Machine Learning
- data science
- Today
- Total
Kicarussays
[CDM 논문리뷰] Using Machine Learning Applied to Real-World Healthcare Data for Predictive Analytics: An Applied Example in Bariatric Surgery 본문
[CDM 논문리뷰] Using Machine Learning Applied to Real-World Healthcare Data for Predictive Analytics: An Applied Example in Bariatric Surgery
Kicarus 2021. 8. 8. 17:56
CDM 관련 논문을 읽고 발표해야 하는 일이 생겨서 리뷰를 쓰게 되었습니다.
2019년에 나온 논문이긴 하지만, 아무래도 의료 도메인에서는 아직 머신러닝/딥러닝을 적용하는 방식이 세련되지 못하긴 합니다. 그럼에도 CDM을 활용하여 다기관 연구를 성공적으로 수행했다는 점 자체에 의미를 둘 수 있을 것 같습니다.
본 논문의 주제는 Type 2 Diabetes 환자들이 복강경 대사 수술을 받은 후에 1~2년 사이에 항고혈당제 약물 복용이 중단되는지 예측하는 모델을, CDM을 활용하여 2개 기관 데이터를 활용하여 구축하는 것입니다.
한 번 살펴봅시다!
논문 출처: https://www.sciencedirect.com/science/article/pii/S1098301519300737
Dataset
Target Database
1. CCAE(Truven MarketScan Commercial Claims and Encounters Database)
- 건강 보험 가입자 및 피부양자의 의료 보험 청구 및 접종 기록에 대한 미 50개주 전체의 기록
- 매년 약 2300만 명의 데이터가 수집됨
- 관련하여 미국에서 가장 큰 데이터셋
2. Optum(Optum Clinformatics Database)
- 미국 사보험 가입자와 의료 혜택 수혜자들의 의료 보험 청구 데이터
- 매년 약 1300만 명의 데이터가 수집됨
본 연구에서 사용한 두 데이터셋입니다. 이 데이터베이스는 모두 비식별화 되어있고, 방문 기관, 의료진, 처방내역 등으로 구성되어 있습니다. OMOP CDM으로 구성되어 있고, OHDSI Standard Vocabulary를 사용한 데이터셋입니다.
국내 대학병원 CDM은 거의 대부분이 OMOP CDM과 OHDSI Standard Vocabulary를 채택하고 있습니다. 개인정보 보호가 필수적이기 때문에 원내에서 연구를 수행할 때에도, 비식별화된 데이터로 연구를 수행해야 합니다. 더해서, 외부 데이터로 함께 연구를 진행할 때에는 비식별화된 데이터를 외부 기관 내에서 분석을 수행해야 합니다. (외부 기관의 데이터를 가져와서 다른 곳에서 연구나 분석을 수행하는 것이 불가능)
Target Population
분석 대상이 되는 코호트 기준과, 각 기준에 부합하는 데이터를 추출하기 위해서, CDM에서 참조해야 하는 테이블에 대한 내용입니다.
1. 2007년 1월 1일 ~ 2013년 10월 1일 사이에 T2D(Type 2 Diabetes) 진단 1회 이상
(최초 진단이 대상; 대상 테이블: Condition Occurrence)
2. 진단 당시 나이 18세 이상의 성인 (대상 테이블: Person)
3. 복강경 대사 수술을 받음 (대상 테이블: Procedure_Occurrence)
4. 항고혈당제 1회 이상 처방 (대상 테이블: Drug_Exposure)
5. 최초 진단(Baseline)으로부터 180일 이전부터 730일 이후까지 Follow-up
* Follow-up 기간 조건
* 대상 환자 베이스라인 테이블
위 테이블에서 대상 환자들의 개요를 확인할 수 있습니다. CCAE, Optum 데이터베이스로부터 각각 13050명, 3477명이 위에서 기술한 5개의 코호트 기준을 만족하는 환자들의 수입니다.
Predictors and Outcome
1. Predictors(독립변수)
- 최초 진단 이전 180일 동안의 건강기록들이 예측변수(독립변수)로 사용됨
- 진단 당시 나이 그룹, 성별, 진단 시 월(month), 당뇨 합병증 중증 지수, 진단, 검사, 수술 및 처방 기록
2. Outcome(종속변수)
- 복강경 대사 수술 이후 1년(365일)에서 2년(730일) 사이에 항고혈당제 중단 여부
- A1c(당화혈색소)의 정상 조절을 T2D의 관해로 보는데, A1c 조절에 대한 정보가 데이터셋에 없기 때문에,
항고혈당제의 중단 여부를 T2D의 관해 여부로 간주
CDM은 정형화된 데이터베이스이기 때문에, 연구자들이 구체적으로 원하는 Outcome을 그대로 추출하기 어려울 수 있습니다. 본 논문에서는 T2D의 관해 여부를 알고 싶지만, "T2D의 관해" 데이터 자체를 CDM으로부터 추출할 수는 없습니다.
CDM을 활용한 연구에서는 추출하고자 하는 결과를 CDM의 형식에 맞게 조정해야 합니다. 따라서 "항고혈당제의 중단 여부"를 "T2D의 관해"로 보고 연구를 진행한 것입니다. 왜냐하면 약물의 복용 내역과 기간은 CDM에서 추출할 수 있는 형태의 데이터이기 때문입니다.
Methods
Procedure
1. CCAE Database에서 랜덤으로 25%를 추출하여 Test Set으로, 나머지(75%)는 Train Set으로 분류
2. Train Set으로 10-fold Validation 진행
3. Test Set으로 Internal Validation 진행
4. Optum Database로 External Validation 진행
Optum Database는 학습에 전혀 관여하지 않고, 오로지 테스트에만 사용됩니다. 이렇게 진행하는 이유는, 서로 다른 데이터베이스를 통합하는 것은 (개인정보 이슈로 인하여) 거의 불가능하기 때문에 CCAE 데이터베이스로 내부 검증(Internal Validation)을 거치고 Optum 데이터베이스로 외부 검증(External Validation)을 진행한 것입니다.
이렇게 두 기관의 데이터를 사용함으로써 외부 검증을 진행할 수 있고, 결과의 신뢰성을 더 높일 수 있습니다.
Machine Learning Methods
1. 머신러닝 기법 종류
- Lasso Logistic Regression (Base)
- Gradient Boosting Machine
- Random Forest
- AdaBoost
2. 세부사항
- Grid Search 기법을 활용하여 가장 우수한 하이퍼파라미터 탐색
- AUC 기준으로 모델 성능 평가
기성 머신러닝 방법론들을 사용하여 분석을 진행하고 있습니다. CDM 활용 논문에서 Grid Search까지 진행하는 경우는 사실 많지는 않습니다. 데이터를 합치는 일에 품이 많이 들어가고, 이런 머신러닝 방법을 적용하여 분석할 인력이 의료 현장에 많이 없는 것이 그 이유이기도 하죠.
Results & Conclusion
Internal Validation
External Validation
내부 검증 결과는 AUROC 0.778 수준으로, 꽤 괜찮은 수준으로 T2D 환자의 수술 후 항고혈당제 중단 여부를 잘 예측한 것으로 보입니다. 외부 검증 결과도 비슷한 수준으로 나왔다는 점에서 연구 결과가 합리적으로 나왔다고 볼 수 있습니다.
이후에 약물이 중단할 시점을 예측할 수 있는 생존분석도 진행해볼 수 있을 것 같고, 약물 중단에 영향을 미치는 요소들을 설명하는 Explainable Model을 적용하여 임상에 직접 적용해볼 수 있는 방법도 있어보입니다.
CDM의 강점은 각 의료기관의 자산으로 여겨지는 데이터를 통합하여 더 신뢰할 수 있는 연구 결과를 가져올 수 있다는 것입니다. 특히 오늘날의 데이터분석에는 딥러닝이 빠질 수 없는데, (머신러닝도 마찬가지이지만 특히) 딥러닝은 분석 대상이 되는 데이터의 수가 성능에 결정적인 영향을 미칩니다. 그렇기 때문에 딥러닝의 발전과 더불어 CDM의 강점이 의료 연구에서 더욱 빛을 발하는 것 같습니다.