일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- lime
- Machine Learning
- Explainable AI
- Gradient Tree Boosting
- data science
- Gradient Boosting Machine
- Back-propagation
- deep learning
- XGBoost
- Today
- Total
Kicarussays
Odds ratio & Confidence interval 계산 방법 본문
의료 데이터 연구에는 여러 가지가 있지만, 실험군과 대조군을 비교하여 가설을 검정하는 연구가 많이 수행됩니다.
그리고 실험군과 대조군에 대하여, 어떤 사건이 더 많이 발생하는지 설명할 때, Odds ratio가 많이 활용됩니다.
예를 들어, 아래와 같은 형태로 데이터가 추출되었다고 해봅시다.
심혈관 질환 발생 | 심혈관 질환 미발생 | |
고혈압 환자 | $a = 992$ | $c = 2260$ |
정상 | $b = 165$ | $d = 1017$ |
눈으로 봐도 확실히 고혈압 환자가 심혈관 질환이 더 많이 발생했지만, 이를 통계적으로 증명하는 데에 Odds ratio와 Odds ratio에 대한 신뢰구간을 활용해볼 것입니다.
Odds ratio의 계산식은 다음과 같습니다.
$$\frac{\frac{\text{고혈압 환자 with 심혈관 질환}}{\text{고혈압 환자 without 심혈관 질환}}}{\frac{\text{정상 with 심혈관 질환}}{\text{정상 without 심혈관 질환}}} = \frac{\frac{\text{고혈압 환자 with 심혈관 질환}}{\text{정상 with 심혈관 질환}}}{\frac{\text{고혈압 환자 without 심혈관 질환}}{\text{정상 without 심혈관 질환}}} = \frac{(992 / 165)}{(2260 / 1017)} = 2.71$$
해당 수치가 1보다 크면 고혈압 환자가 심혈관 질환 발생 위험이 더 큰 것입니다.
하지만 수치 자체로 보는 것으로는 충분하지 않고, 오즈비에 대한 신뢰구간이 1에서 벗어나 있어야 해당 유의수준 하에서 가설 (고혈압 환자가 심혈관 질환 발생 위험이 높다) 이 유의미하다고 볼 수 있습니다.
Odds ratio의 95%에 해당하는 신뢰구간을 구하는 방식은 다음과 같습니다.
$$e^{\left( \log(\text{OR}) \pm \left[ 1.96 \times \text{SE}(\log(\text{OR})) \right] \right)}$$
여기서 $\log(\text{OR})$의 SE(Standard Error)를 구하는 식은 다음과 같습니다.
$$\text{SE} (\log(\text{OR})) = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} = \sqrt{\frac{1}{992} + \frac{1}{165} + \frac{1}{2260} + \frac{1}{3277}} = 0.092165$$
최종적으로 신뢰구간을 구해보면 다음과 같습니다.
$$e^{\log(\text{OR}) \pm 1.96 \times \text{SE}(\log(\text{OR}))} = (2.529, 2.890)$$
신뢰구간이 1을 포함하고 있지 않기 때문에, 고혈압 환자가 심혈관 질환 발생 위험이 유의미하게 높다고 결론내릴 수 있습니다.
다기관 의료데이터 연구를 수행할 때, 모든 데이터를 한 곳에 모아서 분석을 수행한다면 참 좋겠지만, 개인정보 이슈와 정책적인 한계로 각 기관 분석 결과를 토대로 전체 분석 결과를 유추해야 합니다. 하지만 기준에 해당하는 데이터의 개수(count)만 알고 있으면, 기관 별 데이터를 합쳐서 Odds ratio를 계산하는 것은 아주 쉽습니다 (물론 기관별 Random Effect를 고려해야 합니다). 이러한 장점이 있는 Odds ratio를 연구에서 활발히 사용해 볼 수 있을 것 같습니다.
'Statistics (R)' 카테고리의 다른 글
(R) 메타분석 Forest Plot 실습 (metafor 패키지 코드 실습) (0) | 2022.03.08 |
---|---|
(R) Odds ratio 메타분석 실습 (코드 리뷰) (0) | 2022.02.03 |
Calibration Plot 설명 (0) | 2021.08.11 |
(Statistics, R) 기술적 통계분석 루틴 (2) : 연속형 종속변수 (0) | 2020.12.28 |
(Statistics, R) 기술적 통계분석 루틴 (1) : 범주형 종속변수 (0) | 2020.11.25 |