일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- lime
- Explainable AI
- Gradient Boosting Machine
- XGBoost
- Gradient Tree Boosting
- Machine Learning
- deep learning
- Back-propagation
- data science
- Today
- Total
목록Machine Learning (2)
Kicarussays

딥러닝을 비롯한 여러 방법론들은 우수한 성능을 보이며 각광받고 있지만, 그런 방법론들에는 늘 "Blackbox"라는 꼬리표가 달려 있습니다. 아무래도 모델의 복잡성이 증가할수록 성능은 향상되지만 설명력이 낮아진다는 점에서 그렇겠죠. 이번에 소개할 논문은 이런 블랙박스 모델들을 인간의 언어로 설명하는 방법론에 대한 논문입니다. 제가 포스팅을 하고 있는 2021년 8월 기준으로 6105회(;;;) 인용되었네요. 2016년에 발표된 논문임을 감안하면 정말 엄청난 인용수입니다. 이 논문을 쓰신 Marco Tulio Ribeiro 교수님은 마이크로소프트 리서치에서 근무 중이고, 박사 학위를 받았던 워싱턴 대학에서 겸임교수를 하고 있다고 하네요. 대단한 이력을 가지고 있으신 만큼 이 논문도 정말 신선하고 놀라운 방..

아무래도 EMR 데이터를 다루다보면 테이블 데이터에 사용하기 적합한 방법론을 많이 찾아보게 됩니다. 딥러닝이 많이 적용되는 영상이나 신호처럼 데이터 특성에 알맞은 메소드가 꽤 명확한 데이터들과는 달리(영상은 CNN, 신호는 RNN), 테이블 데이터는 데이터 특성에 알맞은 방법을 찾기가 어려운 편입니다. 특히 결측치를 처리하기가 어렵고, Feature Engineering이 까다로운 이유인 것 같습니다. XGBoost는 이러한 테이블 데이터를 분석하는 사람들에겐 가뭄에 단비같은 방법론입니다. Random Forest, Logistic Regression 등 기성 머신러닝 방법론들과 비교했을 때, 확실히 유의미하게 우수한 성능을 보입니다. 부끄럽게도 그 동안 패키지만 다운받아서 쓰다가, 좀 더 깊게 이해해보..