일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Gradient Boosting Machine
- Back-propagation
- deep learning
- data science
- XGBoost
- lime
- Machine Learning
- Explainable AI
- Gradient Tree Boosting
- Today
- Total
목록전체 글 (35)
Kicarussays
안녕하세요! 이번에 살펴볼 논문은 카이스트 최윤재 교수님께서 쓰신 RETAIN입니다. RETAIN은 환자의 병원 방문과 관련된 데이터(진단, 처방, 검사, 수술 등)가 모두 있는 EHR 데이터를 활용하여, 가장 질환에 영향을 많이 미친 방문 시기가 언제인지, 어떤 진단, 처방 등이 질환에 영향을 많이 미쳤는지 설명하는 Interpretable AI 알고리즘입니다. 논문링크: https://proceedings.neurips.cc/paper/2016/hash/231141b34c82aa95e48810a9d1b33a79-Abstract.html RETAIN: An Interpretable Predictive Model for Healthcare using Reverse Time Attention Mechani..
독립된 실험으로부터 산출된 Odds ratio 들을 메타분석으로 통합해봅시다. 연구를 수행할 때 모든 병원들의 데이터를 합쳐서 한꺼번에 분석을 수행하면 참 좋겠지만, 아무래도 개인정보와 관련된 제도적인 한계와 각 병원의 데이터 가치에 따른 이해관계에 의해 raw 데이터를 합치는 것은 어려운 일입니다. 따라서 각 병원들에서 따로 수행한 결과들을 합쳐서, 통계적으로 유의한 종합 결과를 가져오는 메타분석을 수행하게 됩니다. 메타분석은 odds ratio, risk ratio, hazard ratio 등의 statistic에 적용할 수 있습니다. 이번 포스팅에서는 odds ratio의 결과들을 어떻게 메타분석으로 합치는지 살펴볼 것입니다. odds ratio에 대한 내용은 [Odds ratio & Confide..
다음 포스팅을 참고하여 작성하였음을 밝힙니다. https://wikidocs.net/31379 1) 트랜스포머(Transformer) * 이번 챕터는 앞서 설명한 어텐션 메커니즘 챕터에 대한 사전 이해가 필요합니다. 트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 wikidocs.net 이전 포스팅에서는 Attention이 어떻게 작동하는지 살펴보았습니다. 이번에 살펴볼 Transformer는 인코더-디코더 구조를 따르지만, RNN을 사용하지 않고 Attention만을 사용하여 설계된 모델입니다. 번역 성능의 우수성은 이미 아실 것이라 생각됩니다 (대표적 파생모델 BERT). 코드와 함께 Transformer를 살펴봅시다! 논문 링크: https://arxiv.org/abs/1706...
다음 포스팅을 참고하여 작성하였음을 밝힙니다. https://wikidocs.net/22893 1) 어텐션 메커니즘 (Attention Mechanism) 앞서 배운 seq2seq 모델은 **인코더**에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, **디코더**는 이 컨텍스트 벡터를 통해서 ... wikidocs.net 들어가기에 앞서 Seq2Seq 모델을 살펴봅시다. Seq2Seq는 번역 과정에서 입력문장을 벡터 $z$로 임베딩하게 됩니다. 이러한 Seq2Seq는 두 가지 문제점이 있는데, * 고정 벡터에 입력문장 정보를 압축하려고 하다보니 정보 손실이 생기고, * 인코더 / 디코더에서 사용하는 RNN이 고질적으로 그래디언트 손실을 유발한다는 것입니다. Attenti..
Transformer를 소개한 논문인 Attention is all you need를 읽으려고 보니.. encoder, decoder 조차 모르는 상태였습니다.. seq2seq 논문 링크: https://proceedings.neurips.cc/paper/2014/file/a14ac55a4f27472c5d894ec1c3c743d2-Paper.pdf 아래 이미지는 Encoder-Decoder 예시를 아주 잘 보여주는 이미지입니다. Encoder에서 input 문장을 z로 임베딩하고, z를 Decoder에서 target 문장으로 출력하는 과정인데, Pytorch로 구현된 코드를 따라가보겠습니다! 깃허브 링크: https://github.com/bentrevett/pytorch-seq2seq/blob/mast..
요즘 가장 대표적인 그래디언트 부스팅(GBM) 모델을 고르자면 XGBoost, LightGBM, CatBoost 입니다. 세 알고리즘들은 모두 2016-2017년에 등장했고, 높은 완성도로 작성된 패키지를 통해 현재까지도 매우 활발하게 사용되고 있습니다. 이미지, 음성 데이터와 같은 비정형데이터에서는 딥러닝이 강세를 보이지만, 테이블 형태의 정형데이터에서는 GBM이 강세를 보입니다. GBM은 상대적으로 딥러닝보다 해석가능성(interpretability)이 높아서 결과의 근거를 찾을 수 있다는 장점도 있습니다. 앞서 XGBoost, LightGBM은 리뷰 포스팅을 했었고, 이제 마지막 CatBoost를 정리해볼까 합니다. 논문 링크: https://arxiv.org/abs/1706.09516 Introd..
LightGBM은 예전에 한 프로젝트에서 정형 데이터 (Table 형태의 데이터) 에 여러 머신러닝 기법들을 적용해보던 중에 발견한 방법이었습니다. CPU만 사용하면서도 GPU를 쓰는 XGBoost보다 훨씬 더 빠르고, 성능도 비슷해서 놀랐던 기억이 있습니다. (LightGBM 패키지에 GPU 사용 옵션이 있긴 하지만 당시에 GPU 연동에 실패했었습니다, 나중에 다시 시도해보고 LightGBM과 GPU를 연동하는 방법을 소개하는 포스팅을 올려볼 계획입니다) LightGBM이 어떻게 이렇게 효율적인 학습을 가능케 하는지 논문을 직접 읽어보며 정리해보았습니다. 논문 링크: https://papers.nips.cc/paper/2017/hash/6449f44a102fde848669bdd9eb6b76fa-Abst..
Docker hub에는 사람들이 업로드 해둔 유용한 이미지들이 정말 많습니다. 이러한 이미지에 사용자가 추가적으로 필요한 패키지들을 설치하여 사용하게 될텐데, 이렇게 만든 사용자 이미지를 내 도커에 올려서 그때그때 사용한다면 참 편하겠다는 생각이 들어서 포스팅을 정리하게 되었습니다. 순서는 다음과 같습니다. Docker hub 회원가입 도커 로그인 도커허브에서 사용할 이미지로 컨테이너 생성 추가적으로 필요한 패키지 설치 완성된 컨테이너로부터 새로운 이미지 생성 docker hub에 업로드할 repository 생성 업로드 0. Docker hub 회원가입 https://hub.docker.com/ Docker Hub Container Image Library | App Containerization Bu..