비모수 통계 서론 - 자료의 숫자가 적거나 정규성 가정을 만족하지 못하는 경우의 통계 처리

  한동안 쉬고 있었던 R 통계 분석 포스트를 우연한 기회에 다시 시작하게 됐습니다. 굳이 사연을 소개하자면 제 블로그에 댓글을 달아주신 분 덕분입니다. 

아래 같은 댓글은 사실 흔한 편이라 읽었어도 넘어갈 수 있지만 굳이 소개를 한 이유는 우연히 제게 새로운 동기 부여를 했기 때문입니다. 

 

 사실 연구 영역에 따라 샘플 수는 엄청난 차이가 있을 수 있습니다. 저 같이 역학 연구를 하는 사람은 자료의 크기가 큰 편입니다. 수천 명에서 수십 만명의 데이터를 모아 데이터 분석을 하기 때문에 앞서 소개한 중심극한 정리 (Central limit theorem)에 따라 정규 분포에 근사한다고 가정하고 연구를 진행하게 됩니다. 



 하지만 연구 영역에 따라서는 어쩔 수 없이 샘플 수가 작아지는 경우들이 있습니다. 예를 들어 내가 연구하고자 하는 질병이 인구 10만 명당 1-2명 발생하는 희귀 질환이거나 질병은 흔한데, 드물게 발생하는 합병증이라 30명이 안되는 환자의 데이터 밖에 구할 수 없다면 수십명 가지고도 통계 분석을 하고 과학적 결론을 도출해야 합니다. 그것이 드문 질환이기 때문에 연구를 포기하는 것보다 합리적인 결론입니다. 


 이런 문제는 약물 부작용이나 제품 불량에서도 나타날 수 있습니다. 문제가 있다고 수거된 제품이 수십 개 정도인데, 통계적 처리를 하기 어려우니 더 많은 불량품이나 부작용이 보고될 때까지 기다릴 순 없는 일이죠. 

댓글