대한민국 암 발생 확률/통계의 허상 - 누구를 위한 분석인가?

대한민국 암 발생 확률/통계의 허상

몇 년 전 병의원, 보험 등의 광고나 홍보 자료에서 보여주는 암에 걸릴 확률이 25% 이라고 하는 내용들을 본 적이 있다. 그에 따르는 설명으로 한국인이 암에 걸려서 사망할 확률이 5명 중 1명이라고 설명한다.

최근, 한국일보의 보도에 따르면 우리 나라 국민들이 평균 수명(남: 77, 여:84) 까지 산다는 가정 하에 암에 걸릴 확률이 36.2%라고 추산하고 있다. 실제로 이런 신문 지상이나 방송의 통계 분석 결과를 암 보험 광고 등에서 그대로 사용하고 있다는데는 문제가 있다고 본다.

어떻게 보면, 실로 경악을 금치 못할 통계 분석 데이터 관점의 오류/곡해이다. 즉, 일반화된 전체 분석결과를 보여 주는 것이 아니라, 암 발생 비율이 높게 표시된 특정 부분만을 강조하여, 보는 이로 하여금 "나도 암에 걸릴 확률이 높구나" 라고 느끼게 하고 있지 않은가 라는 생각이 드는 것이다.

실제로 본인이 속한 가족 구성원이 8명이고, 평생 살아 오면서 가족 중 어느 한 사람이라도 암에 걸려서 투병한 경우가 전혀 없는 것을 보아도(물론, 통계는 통계일 뿐이고 실 생활은 그와 다른 경우가 더 많다), 아무리 생각해도 지나치게 높은 발생률이 아닐까 의심해 보게 된다.

이렇게 해서, 분석 결과를 보는 이가 절망적인 느낌이 들게 되면, 누가 어떤 혜택을 보게 될지는 말 하지 않아도 감이 잡힐 것이다. 느낌 아니까~

어떤 분석 결과를 볼 것인가?

국가암정보센터에서 발표한 172쪽에 걸친 보고서(국가암등록사업 연례보고서-2010년 암등록통계, 2012년)를 보면, 암 발생 통계와 관련한 몇 개의 분석 섹션을 찾아 볼 수 있다. <암 발생률>과 <암 발생 확률(위험률)>이 그것들이다.

암발생률(Cancer incidence rates) 분석에서는, 여러 개의 분석 결과들 중에서 간단히 아래의 두 개 섹션을 보면 되겠다.

1. 암 발생 순위 분석

실제 데이터를 보면, 2010년 기준의 암 발생자는 202,053명이다. 이를 2010년 총 인구 4,858 만명 기준으로 실제 계산해 보면 0.4% 가량이다.

보고서에서는 조발생률(CR; Crude Rate) 이라는 개념으로, 일반적으로 인구 10만명당 발생하는 암환자수(소아암은 100만명당)을 나타내고 있는데, 2010년 기준 405.1, 즉 0.405% 의 비율을 계산해 볼 수 있다.

2. 암 발생 확률(위험도) 분석

우리 나라 국민 들이 평균 수명까지 생존할 경우, 암에 걸릴 확률이 36.4%, 성별로는 남자 37.6%, 여자 33.3%라고 분석되어 있다. 이는 인간의 평균 수명까지의 누적 발생위험을 백분비로 나타낸 것인데, 미국 암센터에서도 같은 기법으로 위험률을 계산하고 있다.

문제는 위험률을 보는 시각이다

문제는 신문이나 방송, 보험 광고 등에서 채택해서 사용하고 있는, 암에 걸릴 확률의 데이터를 보여 주는 방법이, 한 쪽의 시각으로 편중되어 있어서 보는 이를 심각하게 위협하고 겁을 주는 식으로 자료가 활용되고 있다는 것이다. 즉, 전체 분석 보고서의 어느 부분을 보여 주는가에 따라서, 결과를 보는 사람의 느낌은 판이하게 달라진다.

[첫 번째 시각]

우리가 암에 걸릴 확률은 0.4% 정도 밖에 안된다

[두 번째 시각]

우리가 암에 걸릴 확률은 36%다. 즉, 3명 중 1명은 암에 걸린다(남자는 5명중 2명, 여자는 3명중 1명... 이런 식).

어떤 것이 타당한가?

통계 분석을 위한 데이터는 입체적인 데이터의 집합이다. 요즘 유행하는 말로 <빅데이터>라는 것이 있다. 쉽게 말하면, 수백만~수십억 개의 데이터들을 종류/분류별로 늘어 놓고, 여러 방향에서 조건을 바꾸어 가며 분석하는 것을 말하며, TV나 각 매스컴에서 앞 다투어 빅데이터 분석 기법이라는 말들을 많이 쓰고 있다.

그런데, 그 조건을 조합하는 방법, 즉 위의 경우에서 처럼 데이터를 보는 시각에 따라 분석의 결과가 다르게 나타날 수 있다는 것이다. 여러 섹션의 분석결과들 중에서 특정한 하나의 분석 결과만을 놓고, 보는 이를 현혹하는 것이 과연 온당할지는, 글쎄, 개인적으로는 합리적이지 못하다는 생각이다.

두 번째의 시각을 가만히 보면, 모든 국민들이 평균 수명까지 산다는 가정 하에, 암의 부위별로 걸릴 확률과 암에 걸린 후 치료기간 등을 종류별로 계산하고, 그를 조합/누적해서 나온 수치(암 부위별 생존기간 대비 확률값의 누적)인 듯 하다(미국 암센터에서 제시하는 방법중의 하나. 실제로 미국 암센터에서도 보고서와 비슷한 형식의 분석 결과를 제시하고 있음).

정확한 계산 방법은 자세히 나타나 있지는 않으나 추정을 해 보자면 그렇다는 얘기이고, 뭔가의 확률이 누적되지 않으면 저렇게 높은 수치가 나올 리가 없다.

상식적으로 우리가 암에 걸릴 확률은 어떻게 계산 될까?

수학 또는 통계적 접근 방법으로 우리가 암에 걸릴 확률을 단순 계산하지 않고 추론하려면 어떻게 하면 될까? 보통 이 경우에는 베이지언^[각주:1] 추론 또는 베이지언 통계 추론(또는 베이즈 추론)이란 것을 적용하는 것이 타당하지 않을까 한다. 즉, 추론 대상의 사전 확률과 추가적인 관측을 통해 해당 대상의 사후 확률을 추론하는 방법을 쓰는 것이다.

쉽게 풀어서 쓰면 '증거가 없는, 일반적 상황의 통계데이터상 암에 걸리는 비율', '암에 걸렸다는 확증', '그 증거의 타당도'를 측정한 데이터를 적용해서 계산을 해 보면 아래와 같다.

2010년 기준, 전체인구 대비 암환자 비율이 0.4%이므로 인구 1,000명당 4명의 암 환자 발생. 암 진단은 89.9%의 타당도(보고서 상의 확진율 88.5% + 사망진단서 암 확인률 1.4%: 오진비율=1-타당도)를 가진다고 가정,

계산해 보면 0.03824, 즉 2010년 현재의 통계치 및 암 진단 타당도를 감안하면, 우리 국민이 암에 걸릴 확률은 3.8% 가량이 계산된다는 결론^[각주:2]이다. 글을 게재하는 시점이 2013년이므로, 이 확률은 좀 더 올라서 4% 정도로 추정될텐데, 그다지 낮은 확률은 아니다. 더구나 그 확률이 산업화 등으로 인한 스트레스, 환경 호르몬의 증가로 증가 일로에 있기는 하지만, '4명중 1명은 암' 이라는 무시무시한 표현보다는 조금은 안심되는 느낌이다.

이렇듯, 통계라는 것이 데이터를 보고, 분석하는 방법과 관점에 따라, 여러가지 방향으로 결론이 내려 질 수 있는 속성을 가진다.

결국 그 분석의도와 결과의 방향이, 의사 결정과 판단에 영향을 미치는 것이 바로 통계이므로, 매스컴이나 광고에서 보여주는 데이터를 너무 맹신하지 말고, 좀 더 희망적으로 앞날을 대비하고 데이터를 활용해 나갔으면 좋겠다.

- Barracuda -

18세기 영국의 성직자 토마스 베이스(Thomas Bayes)가 개발한 통계 추론 방법 [본문으로]
본인이 통계를 전문으로 하는 학자가 아니어서 근거 데이터를 취하는 과정에서 일부 부정확한 부분이 있을지도 모르나, 직관적으로 볼 때 상식적인 계산식을 적용하면 이런 수치가 나오게 된다. [본문으로]

저작자표시 비영리 변경금지

'The World > Knowledge' 카테고리의 다른 글

헷갈리고 알쏭달쏭, 바른말 표기법 모음 I [우리말 바로 알기] (2)	2013.12.13
망하는 IT 중소기업의 10가지 공통점 (6)	2013.12.04
수학을 잘 하려면? - 수학불안증을 극복하자 (0)	2013.11.29
유두리, 유도리의 유래, 바른 뜻과 사용법[우리말 바로 알기] (8)	2013.11.29
막장의 뜻 바로 알기 - 고귀한 희망도, 맛있는 음식도 될수 있다 (0)	2013.11.20

Bryan's Tech-Log

대한민국 암 발생 확률/통계의 허상 - 누구를 위한 분석인가?

'The World > Knowledge' 카테고리의 다른 글

티스토리툴바

대한민국 암 발생 확률/통계의 허상 - 누구를 위한 분석인가?

'The World > Knowledge' 카테고리의 다른 글

'The World/Knowledge' Related Articles

티스토리툴바