일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Back-propagation
- data science
- Machine Learning
- deep learning
- XGBoost
- Explainable AI
- Gradient Boosting Machine
- lime
- Gradient Tree Boosting
- Today
- Total
목록전체 글 (35)
Kicarussays
의료 데이터 연구에는 여러 가지가 있지만, 실험군과 대조군을 비교하여 가설을 검정하는 연구가 많이 수행됩니다. 그리고 실험군과 대조군에 대하여, 어떤 사건이 더 많이 발생하는지 설명할 때, Odds ratio가 많이 활용됩니다. 예를 들어, 아래와 같은 형태로 데이터가 추출되었다고 해봅시다. 심혈관 질환 발생 심혈관 질환 미발생 고혈압 환자 $a = 992$ $c = 2260$ 정상 $b = 165$ $d = 1017$ 눈으로 봐도 확실히 고혈압 환자가 심혈관 질환이 더 많이 발생했지만, 이를 통계적으로 증명하는 데에 Odds ratio와 Odds ratio에 대한 신뢰구간을 활용해볼 것입니다. Odds ratio의 계산식은 다음과 같습니다. $$\frac{\frac{\text{고혈압 환자 with 심혈..
도커 이미지 용량 확인 방법입니다. 인터넷이 연결되지 않는 폐쇄망 환경에서 Docker를 사용하고자 한다면, 미리 Image 파일을 가져가야 합니다. 용량을 파악하고 가져가는 것이 좋겠죠 docker system df -v 실행하면 다음과 같은 창이 표시됩니다. 빨간색 박스 친 부분에서 용량을 확인할 수가 있습니다.
SHAP 설명 포스팅: https://kicarussays.tistory.com/32 [논문리뷰/설명] SHAP: A Unified Approach to Interpreting Model Predictions 이전 포스팅에서 LIME에 대한 리뷰를 했었는데, 이번에 소개할 논문은 LIME에 뒤이어 "A unified approach to interpreting model predictions"라는 이름으로 "SHAP"이라는 획기적인 방법을 제시한 논문입니다. LI.. kicarussays.tistory.com DeepLIFT 설명 포스팅: https://kicarussays.tistory.com/33 [논문리뷰/설명] DeepLIFT: Learning Important Features Through Pr..
이번 논문은 딥러닝 인공신경망 모델로부터 Feature Importance를 뽑아내는 합리적인 기법을 연구하여 DeepLIFT 라는 방법을 제시한 논문입니다. 이전 포스팅에서 SHAP을 다뤄봤는데요, SHAP을 DeepLIFT에 적용하여 Feature Importance를 추출할 수도 있습니다. 이 방법은 많은 설명가능 인공지능 연구들에 사용되고 있고, 현장에서도 이미 배포된 패키지들을 활용하여 업무/연구에 활용되고 있습니다. 이 논문은 포스팅을 하고 있는 2021년 9월 30일 기준으로 1482회 인용되었습니다. 이제 시작해보겠습니다! 논문 링크: http://proceedings.mlr.press/v70/shrikumar17a Abstract Summary of DeepLIFT Backpropagat..
이전 포스팅에서 LIME에 대한 리뷰를 했었는데, 이번에 소개할 논문은 LIME에 뒤이어 "A unified approach to interpreting model predictions"라는 이름으로 "SHAP"이라는 획기적인 방법을 제시한 논문입니다. 포스팅하고 있는 현재 2021년 8월 기준 3994회(,,,)의 인용 수를 가지고 있는 엄청난 논문입니다. 논문을 쓰신 Scott M. Lundberg 선생님은 현재 마이크로소프트 리서치에서 근무 중이시고, Su-In Lee 선생님은 워싱턴대에서 교수로 재직 중이십니다. 이제 시작해보겠습니다! 논문 링크: https://arxiv.org/abs/1705.07874 A Unified Approach to Interpreting Model Prediction..
논문을 읽던 중에 Calibration Plot이라는 그래프를 처음 보고 공부한 내용을 정리해보았습니다. 먼저 Calibration Plot 예시를 하나 봅시다. (출처: https://www.sciencedirect.com/science/article/pii/S1098301519300737) 현재 상황은, Logistic Regression을 활용한 분류기(Classifier)를 하나 만들고, 분류기의 성능을 평가하는 상황입니다. 평가를 위해 Accuracy, AUROC 등을 사용할 수 있을 텐데, Calibration Plot은 분류기의 예측이 실제를 얼마나 잘 반영하는지를 평가하는 용도로 사용됩니다. 예를 들어, 분류기에서 어떤 Event의 발생 확률을 0.8이라고 예측했다면, 이 0.8이 정말 합..
CDM 관련 논문을 읽고 발표해야 하는 일이 생겨서 리뷰를 쓰게 되었습니다. 2019년에 나온 논문이긴 하지만, 아무래도 의료 도메인에서는 아직 머신러닝/딥러닝을 적용하는 방식이 세련되지 못하긴 합니다. 그럼에도 CDM을 활용하여 다기관 연구를 성공적으로 수행했다는 점 자체에 의미를 둘 수 있을 것 같습니다. 본 논문의 주제는 Type 2 Diabetes 환자들이 복강경 대사 수술을 받은 후에 1~2년 사이에 항고혈당제 약물 복용이 중단되는지 예측하는 모델을, CDM을 활용하여 2개 기관 데이터를 활용하여 구축하는 것입니다. 한 번 살펴봅시다! 논문 출처: https://www.sciencedirect.com/science/article/pii/S1098301519300737 Using Machine L..
딥러닝을 비롯한 여러 방법론들은 우수한 성능을 보이며 각광받고 있지만, 그런 방법론들에는 늘 "Blackbox"라는 꼬리표가 달려 있습니다. 아무래도 모델의 복잡성이 증가할수록 성능은 향상되지만 설명력이 낮아진다는 점에서 그렇겠죠. 이번에 소개할 논문은 이런 블랙박스 모델들을 인간의 언어로 설명하는 방법론에 대한 논문입니다. 제가 포스팅을 하고 있는 2021년 8월 기준으로 6105회(;;;) 인용되었네요. 2016년에 발표된 논문임을 감안하면 정말 엄청난 인용수입니다. 이 논문을 쓰신 Marco Tulio Ribeiro 교수님은 마이크로소프트 리서치에서 근무 중이고, 박사 학위를 받았던 워싱턴 대학에서 겸임교수를 하고 있다고 하네요. 대단한 이력을 가지고 있으신 만큼 이 논문도 정말 신선하고 놀라운 방..