일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- lime
- Machine Learning
- deep learning
- Back-propagation
- Gradient Boosting Machine
- Explainable AI
- Gradient Tree Boosting
- XGBoost
- data science
- Today
- Total
목록Machine Learning (5)
Kicarussays
현재 진행하고 있는 연구에서 활용하고 있는 데이터의 약 80%가 레이블이 없습니다. 이렇게 일부만 레이블이 있는 데이터를 활용하여 학습모델을 만드는 것을 Semi-supervised learning, 준지도학습이라고 합니다. 이번 논문 Learning with Local and Global Consistency는 데이터로부터 그래프 구조를 도출하고, 이를 바탕으로 준지도학습을 통해 레이블이 없는 데이터의 레이블을 예측합니다. 특히, 이미 레이블이 있는 데이터로부터 레이블이 없는 데이터를 예측한다고 하여 Label propagation 방법으로도 불립니다. 시작하겠습니다! 논문링크: https://proceedings.neurips.cc/paper/2003/hash/87682805257e619d49b8e0..
요즘 가장 대표적인 그래디언트 부스팅(GBM) 모델을 고르자면 XGBoost, LightGBM, CatBoost 입니다. 세 알고리즘들은 모두 2016-2017년에 등장했고, 높은 완성도로 작성된 패키지를 통해 현재까지도 매우 활발하게 사용되고 있습니다. 이미지, 음성 데이터와 같은 비정형데이터에서는 딥러닝이 강세를 보이지만, 테이블 형태의 정형데이터에서는 GBM이 강세를 보입니다. GBM은 상대적으로 딥러닝보다 해석가능성(interpretability)이 높아서 결과의 근거를 찾을 수 있다는 장점도 있습니다. 앞서 XGBoost, LightGBM은 리뷰 포스팅을 했었고, 이제 마지막 CatBoost를 정리해볼까 합니다. 논문 링크: https://arxiv.org/abs/1706.09516 Introd..
LightGBM은 예전에 한 프로젝트에서 정형 데이터 (Table 형태의 데이터) 에 여러 머신러닝 기법들을 적용해보던 중에 발견한 방법이었습니다. CPU만 사용하면서도 GPU를 쓰는 XGBoost보다 훨씬 더 빠르고, 성능도 비슷해서 놀랐던 기억이 있습니다. (LightGBM 패키지에 GPU 사용 옵션이 있긴 하지만 당시에 GPU 연동에 실패했었습니다, 나중에 다시 시도해보고 LightGBM과 GPU를 연동하는 방법을 소개하는 포스팅을 올려볼 계획입니다) LightGBM이 어떻게 이렇게 효율적인 학습을 가능케 하는지 논문을 직접 읽어보며 정리해보았습니다. 논문 링크: https://papers.nips.cc/paper/2017/hash/6449f44a102fde848669bdd9eb6b76fa-Abst..
이전 포스팅 링크입니다. [논문리뷰] XGBoost: A Scalable Tree Boosting System (1) 아무래도 EMR 데이터를 다루다보면 테이블 데이터에 사용하기 적합한 방법론을 많이 찾아보게 됩니다. 딥러닝이 많이 적용되는 영상이나 신호처럼 데이터 특성에 알맞은 메소드가 꽤 명확한 데 kicarussays.tistory.com 이번 포스팅에서는 XGBoost 논문의 Appendix에 자세히 설명이 되어있는 Weighted Quantile Sketch에 대해서 알아보겠습니다. Weighted Quantile Sketch가 XGBoost에서 등장한 배경을 설명하기 위해 몇 가지를 기억해봅시다. 우리가 지금 하고자 하는 작업은 데이터로부터 유용한 Split point 후보군을 찾는 것입니다...
아무래도 EMR 데이터를 다루다보면 테이블 데이터에 사용하기 적합한 방법론을 많이 찾아보게 됩니다. 딥러닝이 많이 적용되는 영상이나 신호처럼 데이터 특성에 알맞은 메소드가 꽤 명확한 데이터들과는 달리(영상은 CNN, 신호는 RNN), 테이블 데이터는 데이터 특성에 알맞은 방법을 찾기가 어려운 편입니다. 특히 결측치를 처리하기가 어렵고, Feature Engineering이 까다로운 이유인 것 같습니다. XGBoost는 이러한 테이블 데이터를 분석하는 사람들에겐 가뭄에 단비같은 방법론입니다. Random Forest, Logistic Regression 등 기성 머신러닝 방법론들과 비교했을 때, 확실히 유의미하게 우수한 성능을 보입니다. 부끄럽게도 그 동안 패키지만 다운받아서 쓰다가, 좀 더 깊게 이해해보..