일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- XGBoost
- Gradient Boosting Machine
- Explainable AI
- Gradient Tree Boosting
- Back-propagation
- data science
- Machine Learning
- lime
- deep learning
- Today
- Total
목록전체 글 (35)
Kicarussays
이전 포스팅 링크입니다. [논문리뷰] XGBoost: A Scalable Tree Boosting System (1) 아무래도 EMR 데이터를 다루다보면 테이블 데이터에 사용하기 적합한 방법론을 많이 찾아보게 됩니다. 딥러닝이 많이 적용되는 영상이나 신호처럼 데이터 특성에 알맞은 메소드가 꽤 명확한 데 kicarussays.tistory.com 이번 포스팅에서는 XGBoost 논문의 Appendix에 자세히 설명이 되어있는 Weighted Quantile Sketch에 대해서 알아보겠습니다. Weighted Quantile Sketch가 XGBoost에서 등장한 배경을 설명하기 위해 몇 가지를 기억해봅시다. 우리가 지금 하고자 하는 작업은 데이터로부터 유용한 Split point 후보군을 찾는 것입니다...
해당 링크를 참조하여 포스팅하였습니다. humboldt-wi.github.io/blog/research/information_systems_1920/group2_survivalanalysis/#motivation Deep Learning for Survival Analysis Deep Learning for Survival Analysis Authors: Laura Löschmann, Daria Smorodina Table of content Motivation - Business case Introduction to Survival Analysis Dataset Standard methods in Survival Analysis Deep Learning for Survival Analysis Evalu..
아무래도 EMR 데이터를 다루다보면 테이블 데이터에 사용하기 적합한 방법론을 많이 찾아보게 됩니다. 딥러닝이 많이 적용되는 영상이나 신호처럼 데이터 특성에 알맞은 메소드가 꽤 명확한 데이터들과는 달리(영상은 CNN, 신호는 RNN), 테이블 데이터는 데이터 특성에 알맞은 방법을 찾기가 어려운 편입니다. 특히 결측치를 처리하기가 어렵고, Feature Engineering이 까다로운 이유인 것 같습니다. XGBoost는 이러한 테이블 데이터를 분석하는 사람들에겐 가뭄에 단비같은 방법론입니다. Random Forest, Logistic Regression 등 기성 머신러닝 방법론들과 비교했을 때, 확실히 유의미하게 우수한 성능을 보입니다. 부끄럽게도 그 동안 패키지만 다운받아서 쓰다가, 좀 더 깊게 이해해보..
안녕하세요, 날씨가 어느덧 따뜻해진 것 같습니다. 미세먼지는 심하지만, 겉옷이 필요 없는 낮에 햇볕을 쬐면, 역시 계절은 봄이라는 생각을 하게 되네요. 이번 포스팅에서는 Relational Network(논문링크)에 대해서 이야기해볼까 합니다. 논문 풀네임은 A simple neural network module for relational reasoning입니다. 1. Background Relational Network(RN)는 관계형 추론(relational reasoning)을 위한 신경망입니다. 관계형 추론과 비관계형 추론을 구분하기 위한 아주 간단한 예시를 한 번 들어보겠습니다. 위의 이미지는 페이스북 AI 연구팀에서 개발한 CLEVR Dataset의 일부입니다. CLEVR Dataset은 위와..
저번 "기술적 통계분석 루틴 (1) : 범주형 종속변수" 포스트에 이어서 이번 포스트에서는 연속형 종속변수를 가진 데이터에 대하여 설명해볼까 합니다. 다시 한번 목표와 통계 분석 기법 플로우차트를 상기해보도록 하겠습니다. Goal. 상황에 맞는 통계 기법을 선택하고 해당 통계 기법을 R로 구현한다. 저번 포스팅에서 가져온 통계분석 기법 플로우차트입니다. (출처: m.blog.naver.com/y4769/220024117776) 종속 변수(Y변수) : 연속형 / 범주형 처음으로 종속 변수가 연속형인지 범주형인지 판단해야 합니다. 종속 변수: 연구자들이 어떻게 변하는지 알고 싶어하는 변수 데이터 분석에서는 클래스(label)로 말할 수 있을 것 같습니다. 예를 들어 맹장수술을 한 환자군에서 복막염 동반 여부..
데이터 분석을 진행하다보면 그룹 간의 차이를 규명하기 위해 통계 분석 기법을 사용하게 됩니다. 상황에 맞는 여러 기법들이 있고, 해당 기법들이 그 상황에 맞는 것을 수학적으로 증명할 수도 있습니다. 하지만 저와 같은 비전공자들은 "기술적으로" 올바른 통계 기법들을 사용하는 것이 당장 필요한 작업인 경우가 많습니다. 본 포스팅은 "기술적으로" 올바른 통계 분석 기법을 선택하여 사용하는 방법을 정리하고자 시작하게 되었습니다. 최종 목표는 다음과 같습니다. Goal. 상황에 맞는 통계 기법을 선택하고 해당 통계 기법을 R로 구현한다. 확률 변수, 확률 분포, 기댓값, 검정통계량 등 기초적인 통계 개념을 알고 있다는 전제 하에 포스트를 작성하였습니다. "기술적으로" 통계 분석을 하는 방법에 대한 내용인 만큼 개..
R을 이용한 프로젝트를 한 가지 진행중에 있습니다. read_csv를 사용해서 데이터를 불러오는 데 자꾸 오류가 생겨서 구글링을 해보며 얻은 해결 방법과, read_csv의 파라미터들에 대해 써볼까 합니다. 0. 문제 위의 콘솔창을 보면 read_csv로 파일을 불러왔는데 parsing failure라는 메시지와 함께 25개 행을 불러오는데 실패합니다. expected를 보면 원하는 자료형이 Boolean인데에 비해 실제 데이터는 날짜 데이터이기 때문이었습니다. 그런데 실제로 제가 불러오려던 데이터의 해당 컬럼은 날짜 데이터만 있었습니다. 위의 사진에서 .default = col.date() 로 쓰여진 부분을 보면, 데이터를 불러오는 디폴트값이 날짜데이터로 설정이 되어있음에도 a2yr_cond2, a2y..
평소와 다름없이 터미널을 키고 아나콘다 가상환경을 activate 했으나 갑자기 이런 메세지가 뜰 때가 있습니다. 이럴 때는, 1. 홈 디렉토리로 이동합니다. $ cd ~ 2. 아래 스크립트를 실행해줍니다. 아나콘다가 설치된 폴더가 anaconda3가 아니라면 해당 폴더 이름으로 바꿔서 실행해줍니다. $ source ~/anaconda3/etc/profile.d/conda.sh 3. 다시 activate하니 잘 되네요 https://somjang.tistory.com/entry/Anaconda-CommandNotFoundError-Your-shell-has-not-been-properly-configured-to-use-conda-activate-%ED%95%B4%EA%B2%B0-%EB%B0%A9%EB%..