통계적 유의도와 임상 데이터(Trial data)의 중요도와의 관계: 패러다임의 변화

최신 국제학술트렌드 | 2017-12-11 오후 10:52:54 | 조회수 : 2968 | 공개



근거중심의학(evidence-based medicine)에서는 검사자가 관찰 결과를 해석하고 진료 지침을 내리기 위해서는 통계 정보가 아주 중요합니다. 최근 학술계에서는 임상 시험 데이터 해석에 있어 그동안 널리 받아들여지며 자주 실행되는 방법인 P값에 기반한 의사 결정에 대한 지나친 의존을 향한 반대의 목소리가 거세지고 있습니다. 최근 유명 저널들에 실린 여러 편의 논문들이 “통계적 유의도(statistical significance)”라는 대중화된 개념에 의문을 제기하고 있습니다.
 

P값을 둘러싼 논쟁

p값은 확정적 테스트가 아니라 실험을 계속 반복했을 때 실험에서 나온 근거들이 입증될 확률을 판단하는 도구로서 통계에 도입되었습니다. 간단히 설명하자면 p값은 0에서 1사이로, p값이 낮을수록 실험 결과가 우연에 영향을 받을 가능성이 낮아집니다. 통상적으로 0.05의 p값이 확률을 결정하는 기준이 되며 결과적으로 출판할 가치를 결정합니다. 그러나 이 0.05라는 수치는 무작위적인 것이며 p값과 배경지식이 결합되었을 때 보다 좋은 방향으로 과학적 이해를 할 수 있게 도와주는 실용적 도구에 가깝습니다. 실제로, 갈로뎃 대학의 Regina Nuzzo 교수의 논문에서는 이 마술적인 0.05라는 수치는 진지하게 받아들이기에는 지나치게 경계에 가까운 값인데, 왜냐하면 외부 데이터로 인해 실험의 효과가 유의적인 것에서 비유의적인 것으로 바뀔 수 있기 때문이라고 했습니다.

실제 치료 효과를 결정하는 데 지나치게 p값에 의존함에 따라 생의학 분야 문헌은 임상시험의  가치를 증명하기 위해 다른 필수적인 요소들을 감안하지 않고 통계적 유의도만을 보고하는 연구로 넘쳐나게 되었습니다. 이러한 불일치는 통계적 유의도라는 양자택일적인 사실이 치료 효과의 규모, secondary endpoints에 미치는 치료 효과, 일반적 위험요인/효과 평가의 의의, 생물학적 효과의 가능성, 재현율, 추론 과정에서의 관찰을 일반화할 수 있는 가능성 등 결정적인 요소들을 배제한다는 데서 나옵니다. 최근에는 라는 학술저널에서도 p값 사용을 금지했습니다. 이 결정에는 이론의 여지가 있을 수 있지만, 임팩트 팩터가 높은 저널들에서도 Buyse et al. 등의 연구자들이 통계적으로 유의하지 않은 결과에 기반을 둔 임상 데이터의 해석에 실제로 목소리를 높이고 있습니다. 

임상적으로 의미 있는 변화는 종종 최소한의 유의미한 차이(minimally important changes; MIC) 또는 임상적으로 유의미한 최소한의 차이 (minimal clinically important differences; MCID) 등의 용어로 식별되기도 합니다. 안타까운 일이지만 임상적 유의도는 객관적 측정이라는 맥락에서 잘 정의되어 있지 않습니다. 그러나 통계 데이터를 기반으로 임상적 유의도를 평가할 때는 반드시 p값을 넘어서는 사고가 필요합니다.
 

임상적 중요성을 통계적 유의도와 조화시키기 위해 나아갈 길

결과가 통계적으로 ‘유의하다’, 또는 ‘유의하지 않다’는 식으로 임상 시험의 세계를 이분법적으로 바라본다면 지금까지 수집한 데이터의 보다 폭넓은 해석이 어려워질 수 있습니다. 효과 크기, 신뢰구간으로 표현된 효과의 규모와 상대적 중요성이 임상 시험 결과 보고에 있어 보다 강력한 방법으로 간주되고 있습니다.  
 

효과 크기(Effect size): 치료 효과를 ‘예’, ‘아니오’ 식으로 단순하게 해석한다는 생각은 매력적이긴 하지만 이분법이 지배하지 않는 세상에서 살아가면서 치료의 효과와 생물학적 중요성을 측정하려는 연구자들에게는 비현실적입니다. 임상 데이터를 해석할 때 효과 크기를 포함시키는 것은 임상적 유의도를 평가하는 효과적인 방법입니다. 이는 각 그룹에서 산출한 결과의 차이의 크기를 보여줍니다. 치료의 효과 크기가 크다면, 실험군과 대조군 차이의 차이가 더 크다는 뜻이며, 따라서 환자에게 더욱 의미 있는 결과가 됩니다.  
 

신뢰구간 (Confidence interval): 신뢰구간이란 수많은 연구자들이 선호하고 CONSORT가 보증하는 방법으로, 측정된 효과를 둘러싼 불확실성의 수준을 보여줍니다. 바꾸어 말하면, 양극단의 신뢰한계를 통해 실제 개체군의 효과가 두 지점 사이에 놓여 있음을 추론할 수 있습니다. 이는 p값과 마찬가지로 결과가 통계적으로 유의한지를 전달하는 것에 더불어 결과의 정확성도 함께 나타냅니다.
 

베이시안 접근법(Bayesian approach): p값에 기반한 추론의 문제점은 실제 세계에서 조건을 뒤바꾼 오류(transposed conditional)라는 논리적 오류를 범한다는 것입니다. 빈혈을 앓는 환자가 피로를 느낄 가능성이 피로를 느끼는 사람이 빈혈에 걸렸을 가능성과 동일하지 않은 것처럼, 개입과 대조군 사이의 p=<0.05라는 숫자는 실제로 이 치료가 효과가 있을 가능성을 나타내는 것은 아닙니다. 실제 세계에서 일어날 수 있는 유동성과 불확실성을 포착하기 위해, 베이시안 접근법과 같은임상 시험 데이터 분석에 패러다임 변화가 일어나고 있습니다. 이 접근법은 질병의 유병률, 환자들의 인구통계학적 정보, 증상 등의 요소를 고려하고, 사전에 가능성을 평가하고, 이후에 진단 평가를 수행한 뒤에 결정을 내리는 의사의 비판적 사고 과정을 모방한 연구 질문들로 이루어져 있습니다. Bittle and He의 연구 등 여러 편의 연구를 통해 보았을 때 베이시안 통계는 기존의 통계보다 통계적 근거와 임상적 유의도를 통합하기에 더 좋은 방법론으로 보입니다. 
 

유의도 시험을 지지하는 사람들이 많이 있지만, 이제 연구자들은 그 위험성을 인식하기 시작해야 할 것입니다. 임상 시험 결과를 보고할 때 독자들이 유의도를 잘 평가할 수 있게 해주는 가장 좋은 방법은 연구의 주요한 세부 사항들을 명확히 보고하고 이용할 수 있는 모든 임상적 지식을 연구자들과 나누는 것입니다.  







댓글 : 0