일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- deep learning
- lime
- Gradient Tree Boosting
- Explainable AI
- Gradient Boosting Machine
- Machine Learning
- XGBoost
- data science
- Back-propagation
- Today
- Total
목록Statistics (R) (7)
Kicarussays
metafor 패키지를 활용하여 Forest Plot을 그려봅시다. Forest Plot은 여러 독립적인 연구들의 결과와, 그 연구들을 종합한 전체 결과를 그래프로 표현한 것입니다. 메타분석 결과를 요약하여 보여주는 데에 많이 활용됩니다. R로 메타분석을 수행하는 포스팅은 여기서 확인하실 수 있습니다. 참고자료: https://wviechtb.github.io/metafor/reference/forest.default.html Forest Plots (Default Method) — forest.default Function to create forest plots for a given set of data. wviechtb.github.io 데이터를 불러오고 메타분석을 수행해봅시다. library(me..
독립된 실험으로부터 산출된 Odds ratio 들을 메타분석으로 통합해봅시다. 연구를 수행할 때 모든 병원들의 데이터를 합쳐서 한꺼번에 분석을 수행하면 참 좋겠지만, 아무래도 개인정보와 관련된 제도적인 한계와 각 병원의 데이터 가치에 따른 이해관계에 의해 raw 데이터를 합치는 것은 어려운 일입니다. 따라서 각 병원들에서 따로 수행한 결과들을 합쳐서, 통계적으로 유의한 종합 결과를 가져오는 메타분석을 수행하게 됩니다. 메타분석은 odds ratio, risk ratio, hazard ratio 등의 statistic에 적용할 수 있습니다. 이번 포스팅에서는 odds ratio의 결과들을 어떻게 메타분석으로 합치는지 살펴볼 것입니다. odds ratio에 대한 내용은 [Odds ratio & Confide..
의료 데이터 연구에는 여러 가지가 있지만, 실험군과 대조군을 비교하여 가설을 검정하는 연구가 많이 수행됩니다. 그리고 실험군과 대조군에 대하여, 어떤 사건이 더 많이 발생하는지 설명할 때, Odds ratio가 많이 활용됩니다. 예를 들어, 아래와 같은 형태로 데이터가 추출되었다고 해봅시다. 심혈관 질환 발생 심혈관 질환 미발생 고혈압 환자 $a = 992$ $c = 2260$ 정상 $b = 165$ $d = 1017$ 눈으로 봐도 확실히 고혈압 환자가 심혈관 질환이 더 많이 발생했지만, 이를 통계적으로 증명하는 데에 Odds ratio와 Odds ratio에 대한 신뢰구간을 활용해볼 것입니다. Odds ratio의 계산식은 다음과 같습니다. $$\frac{\frac{\text{고혈압 환자 with 심혈..
논문을 읽던 중에 Calibration Plot이라는 그래프를 처음 보고 공부한 내용을 정리해보았습니다. 먼저 Calibration Plot 예시를 하나 봅시다. (출처: https://www.sciencedirect.com/science/article/pii/S1098301519300737) 현재 상황은, Logistic Regression을 활용한 분류기(Classifier)를 하나 만들고, 분류기의 성능을 평가하는 상황입니다. 평가를 위해 Accuracy, AUROC 등을 사용할 수 있을 텐데, Calibration Plot은 분류기의 예측이 실제를 얼마나 잘 반영하는지를 평가하는 용도로 사용됩니다. 예를 들어, 분류기에서 어떤 Event의 발생 확률을 0.8이라고 예측했다면, 이 0.8이 정말 합..
저번 "기술적 통계분석 루틴 (1) : 범주형 종속변수" 포스트에 이어서 이번 포스트에서는 연속형 종속변수를 가진 데이터에 대하여 설명해볼까 합니다. 다시 한번 목표와 통계 분석 기법 플로우차트를 상기해보도록 하겠습니다. Goal. 상황에 맞는 통계 기법을 선택하고 해당 통계 기법을 R로 구현한다. 저번 포스팅에서 가져온 통계분석 기법 플로우차트입니다. (출처: m.blog.naver.com/y4769/220024117776) 종속 변수(Y변수) : 연속형 / 범주형 처음으로 종속 변수가 연속형인지 범주형인지 판단해야 합니다. 종속 변수: 연구자들이 어떻게 변하는지 알고 싶어하는 변수 데이터 분석에서는 클래스(label)로 말할 수 있을 것 같습니다. 예를 들어 맹장수술을 한 환자군에서 복막염 동반 여부..
데이터 분석을 진행하다보면 그룹 간의 차이를 규명하기 위해 통계 분석 기법을 사용하게 됩니다. 상황에 맞는 여러 기법들이 있고, 해당 기법들이 그 상황에 맞는 것을 수학적으로 증명할 수도 있습니다. 하지만 저와 같은 비전공자들은 "기술적으로" 올바른 통계 기법들을 사용하는 것이 당장 필요한 작업인 경우가 많습니다. 본 포스팅은 "기술적으로" 올바른 통계 분석 기법을 선택하여 사용하는 방법을 정리하고자 시작하게 되었습니다. 최종 목표는 다음과 같습니다. Goal. 상황에 맞는 통계 기법을 선택하고 해당 통계 기법을 R로 구현한다. 확률 변수, 확률 분포, 기댓값, 검정통계량 등 기초적인 통계 개념을 알고 있다는 전제 하에 포스트를 작성하였습니다. "기술적으로" 통계 분석을 하는 방법에 대한 내용인 만큼 개..
R을 이용한 프로젝트를 한 가지 진행중에 있습니다. read_csv를 사용해서 데이터를 불러오는 데 자꾸 오류가 생겨서 구글링을 해보며 얻은 해결 방법과, read_csv의 파라미터들에 대해 써볼까 합니다. 0. 문제 위의 콘솔창을 보면 read_csv로 파일을 불러왔는데 parsing failure라는 메시지와 함께 25개 행을 불러오는데 실패합니다. expected를 보면 원하는 자료형이 Boolean인데에 비해 실제 데이터는 날짜 데이터이기 때문이었습니다. 그런데 실제로 제가 불러오려던 데이터의 해당 컬럼은 날짜 데이터만 있었습니다. 위의 사진에서 .default = col.date() 로 쓰여진 부분을 보면, 데이터를 불러오는 디폴트값이 날짜데이터로 설정이 되어있음에도 a2yr_cond2, a2y..