Kicarussays

Odds ratio & Confidence interval 계산 방법 본문

Statistics (R)

Odds ratio & Confidence interval 계산 방법

Kicarus 2021. 10. 22. 19:02

의료 데이터 연구에는 여러 가지가 있지만, 실험군과 대조군을 비교하여 가설을 검정하는 연구가 많이 수행됩니다.

 

그리고 실험군과 대조군에 대하여, 어떤 사건이 더 많이 발생하는지 설명할 때, Odds ratio가 많이 활용됩니다.

 

예를 들어, 아래와 같은 형태로 데이터가 추출되었다고 해봅시다.

    심혈관 질환 발생   심혈관 질환 미발생
  고혈압 환자   a=992   c=2260
  정상   b=165   d=1017

 

눈으로 봐도 확실히 고혈압 환자가 심혈관 질환이 더 많이 발생했지만, 이를 통계적으로 증명하는 데에 Odds ratio와 Odds ratio에 대한 신뢰구간을 활용해볼 것입니다.

 

Odds ratio의 계산식은 다음과 같습니다.

고혈압 환자 with 심혈관 질환고혈압 환자 without 심혈관 질환정상 with 심혈관 질환정상 without 심혈관 질환=고혈압 환자 with 심혈관 질환정상 with 심혈관 질환고혈압 환자 without 심혈관 질환정상 without 심혈관 질환=(992/165)(2260/1017)=2.71

 

해당 수치가 1보다 크면 고혈압 환자가 심혈관 질환 발생 위험이 더 큰 것입니다.

하지만 수치 자체로 보는 것으로는 충분하지 않고, 오즈비에 대한 신뢰구간이 1에서 벗어나 있어야 해당 유의수준 하에서 가설 (고혈압 환자가 심혈관 질환 발생 위험이 높다) 이 유의미하다고 볼 수 있습니다.

 


 

Odds ratio의 95%에 해당하는 신뢰구간을 구하는 방식은 다음과 같습니다.

e(log(OR)±[1.96×SE(log(OR))])

여기서 log(OR)의 SE(Standard Error)를 구하는 식은 다음과 같습니다.

SE(log(OR))=1a+1b+1c+1d=1992+1165+12260+13277=0.092165

 

최종적으로 신뢰구간을 구해보면 다음과 같습니다.

elog(OR)±1.96×SE(log(OR))=(2.529,2.890)

신뢰구간이 1을 포함하고 있지 않기 때문에, 고혈압 환자가 심혈관 질환 발생 위험이 유의미하게 높다고 결론내릴 수 있습니다.

 


 

다기관 의료데이터 연구를 수행할 때, 모든 데이터를 한 곳에 모아서 분석을 수행한다면 참 좋겠지만, 개인정보 이슈와 정책적인 한계로 각 기관 분석 결과를 토대로 전체 분석 결과를 유추해야 합니다. 하지만 기준에 해당하는 데이터의 개수(count)만 알고 있으면, 기관 별 데이터를 합쳐서 Odds ratio를 계산하는 것은 아주 쉽습니다 (물론 기관별 Random Effect를 고려해야 합니다). 이러한 장점이 있는 Odds ratio를 연구에서 활발히 사용해 볼 수 있을 것 같습니다.

 

 

 

참고자료: https://sphweb.bumc.bu.edu/otlt/MPH-Modules/PH717-QuantCore/PH717_ComparingFrequencies/PH717_ComparingFrequencies8.html

 

Confidence Interval for an Odds Ratio

Confidence Interval for an Odds Ratio Note that while we have discussed using the odds ratio as a measure of association in the context of a case-control study, odds ratios can also be computed in other types of study designs as well. Recall our example of

sphweb.bumc.bu.edu

 

 

 

Comments