오늘날 통계적 사고, 통계적 도구확인, 통계적 기법의 활용은 과학이란 용어를 붙여준 모든 학문의 분야에서 일상의 다양한 영역에 이르기까지 보편화되는 추세이다. 통계학이 추구하는 것은 우리가 직면한 혼잡스럽고 불확정적인 상황에서 합리적이고 과학적인 방법에 따 ...
오늘날 통계적 사고, 통계적 도구확인, 통계적 기법의 활용은 과학이란 용어를 붙여준 모든 학문의 분야에서 일상의 다양한 영역에 이르기까지 보편화되는 추세이다. 통계학이 추구하는 것은 우리가 직면한 혼잡스럽고 불확정적인 상황에서 합리적이고 과학적인 방법에 따라 숨겨져 있는 규칙성을 찾기 위한 최선의 의사결정이라고 볼 수 있다. 그러나 통계, 통계적 기법의 홍수를 면밀히 관찰해보면 이용 상에 많은 문제점을 가지고 있는 것도 사실이다. 비전문성을 가진 일상의 신문, 잡지, 방송 등에서 접할 수 있는 통계뿐만 아니라, 사회과학 분야에서 학문적으로 많이 사용하는 통계적 분석에도 많은 문제가 있는 것을 볼 수 있다. 통계적 기법의 활용은 여러 과학 분야에 걸쳐 확산되고 있으며, 이때 사용되는 기법의 종류도 다양해지고 내용 또한 그 수준이 높아지고 있는 추세이다. 여기서 문제가 되는 것은 전문적 지식의 결여에서 오는 기법들의 잘못된 선택과 내용상의 잘못된 응용 및 결과에 대한 그릇된 이해이다. 이러한 그릇된 응용은 비단 대학원 학위 논문이나 대학의 학술지에 게재된 논문뿐만 아니고 심사라는 여과과정을 거쳤다고 판단되는 전문학술지에 게재된 논문들에도 공히 적용되는 문제이다. 이 문제는 기법의 제공자로서 통계학의 측면에서만 아니라 기법의 이용자인 해당분야의 측면에서도 학문발전의 중요한 저해요인으로 볼 수 있는 만큼 문제 범위와 유형, 그리고 그 영향의 심각성에 대한 올바른 평가는 무엇보다 도 선행되어야 할 시급한 과제이다. 그러나 현실적 문제에서 통계학 비전문가들이 자신의 연구를 위해 통계학적인 기법을 선택할 때 여러 기법들에 대하여 비교 분석하여 어떤 방법을 사용하여야 하는가를 제시하는 문헌은 없는 실정이다. 대부분의 통계학서는 목차에 의하여 독립적으로 내용을 다루고 있어 비슷한 내용에서 어떤 분석 방법을 선택하여야 되는지에 대하여서는 전혀 언급이 없다. 이로 말미암아 사회과학자들은 정확한 분석없이 대충 비슷하면 자신이 다루기 쉬운 분석방법을 선택하거나, 선행연구와는 변인에 대한 성격이 다름에도 불구하고 동일한 분석 방법을 선택하는 경향이 있다. 본 연구는 통계의 오용과 오류를 막기 위한 것으로 (1) 무의미한 통계(meaningless statistics) (2) 엉터리 통계(phony statistics)의 사용을 막기 위함이며, 오류에서는 둘로 요약하면 (1) 통계적 기법을 잘못 적용 (2) 분석결과에 대한 그릇된 해석을 막고자 한다. 이는 통계학에 대한 학문적 소양결핍에서 비롯되는 문제이기 때문이다. 따라서 연구의 목적은 통계적 기법을 활용하려는 연구자가 통계적 무지에 의하여 통계적 오류를 범하지 않는 동시에 보다 효율적으로 통계적 기법을 활용하는데 이용할 수 있는 하나의 기준을 탐색하는데 초점을 두어 첫째, 과학과 통계학과의 관계, 사회과학분야에서 통계적 기법 활용의 문제, 통계의 오용과 통계적 오류의 문제 등 통계적 기법 활용을 둘러싼 몇 가지 문제를 탐구해 보고 둘째, 통계적 기법 활용을 위해 하나의 기준이 되는 방안을 제시하며, 그 세부사항의 문제를 검토하고, 셋째, 사회과학 분야의 통계 이용자가 쉽게 이해할 수 있도록 자주 사용하는 통계적 기법을 비교 정리하는 것이다. 결론적으로 연구의 범위는 새로운 이론이나 방법을 연구하기보다는 기존에 연구된 결과를 사회학적 모형에 적용하여 예제를 통하여 통계의 오류와 오용을 막기 위한 지침서를 만들고자 한다.
기대효과
어떤 과학자가 그의 논문에서 통계적 기법을 활용함은 두말할 나위없이 과학성을 획득을 위함이다. 이 때 과학적 방법이란 구체적으로 현상 → 개념 → 가설 → 검정의 과정을 거쳐 이론을 도출하는 것이다. 이는 종합 체계적인 실험활동을 통하여 감추어진 일반적인 원칙을 ...
어떤 과학자가 그의 논문에서 통계적 기법을 활용함은 두말할 나위없이 과학성을 획득을 위함이다. 이 때 과학적 방법이란 구체적으로 현상 → 개념 → 가설 → 검정의 과정을 거쳐 이론을 도출하는 것이다. 이는 종합 체계적인 실험활동을 통하여 감추어진 일반적인 원칙을 밝혀내는 것을 뜻한다(김해동 1982). 그런데 사회과학은 그 본래의 속성상 자연과학에 비하여 과학성의 제고는 어려우며, 자연과학보다 과학화에 어려움이 큰 것은 당연하나 피어슨(Pearson)이 과학의 통일성을 그 연구대상에서 찾지 않고 그 방법론에서 찾은 것처럼 우리는 고도의 관찰방법이나 측정방법, 실험방법 등의 개발을 통하여 과학성을 높여 갈 수 있다는 것이다. 또한 그 활용에서도 급속히 증대되고 내용 또한 다양해지고 있다. 그러나 종종 연구자들이 통계학에 대한 전문적 지식의 결여에서 비롯되는 통계적 기법의 그릇된 활용은 연구 논문에서 심각한 문제를 일으키곤 한다. 이 문제는 기법의 제공자로서의 통계학의 측면에서 뿐만 아니라 기법의 이용자인 해당 학문분야의 측면에서도 학문 발전의 중요한 저해요인으로 볼 수 있는 만큼 문제의 범위와 유형, 그리고 그 영향의 심각성에 대한 올바른 평가는 무엇보다도 선행되어야 할 시급한 과제이다. 과학적 연구가 통계적 기법 활용의 잘못으로 의심받거나 평가절하되어서는 안될 것이기 때문이다. 이러한 통계적 오용과 오류는 통계학의 이론이 미비하기 때문이기보다는 통계학이 사용자의 요구에 맞게 전달되지 못한 잘못이 더욱 크다. 따라서 본 연구는 사회과학분야에서 통계적 기법을 활용하고자 하는 연구자에게 일차적인 관심을 가져 통계적 방법론을 정립하는 것으로 궁극적으로는 사회과학과 자연과학의 동반 발전을 일으킬 수 있다. 이러한 연구가 폭 넓게 실시된다면 통계의 오용과 통계적 오류의 문제는 통계적 사고의 확립을 통하여 막을 수 있다. 물론 통계적 사고의 확립은 연구자의 윤리성의 문제와도 부분적으로 관련되어 있다. 통계이용자나 통계적 기법을 활용하는 연구자가 개인적 기호선택 편견으로서의 주관성을 택함으로 해서 통계나 통계적 기법을 조작하는 그릇된 의도가 작용할 때 이는 통계적 기법을 이용한 자기 방어수단 일 뿐인 것이다. 그러나 이러한 문제는 현실적으로 통계방법론의 사용자에게 정확한 통계학을 전달하는 방법 밖에는 없는 것이다. 따라서 본 연구의 바탕이 되는 강좌는 앞으로 학문을 이끌고 나갈 후학들에게 훌륭한 경험과 지혜의 습득 과정이 될 것이며, 현재의 사회학 분야에서는 통계적 방법론에서 본인이 가지고 있는 문제와 흡사한 예제를 가진 지침서가 되리라 생각된다.
연구요약
사회과학에서 사용하는 통계학의 분야는 통계학의 전 분야가 망라되었다해도 과언이 아니다. 본 연구에서는 시간적 제약 등으로 일반적으로 많이 사용하는 것만을 선택하여 연구의 범위로 삼고자 한다. 연구를 위한 세부 연구과제는 통계학 전공자의 입장에서는 초급 및 ...
사회과학에서 사용하는 통계학의 분야는 통계학의 전 분야가 망라되었다해도 과언이 아니다. 본 연구에서는 시간적 제약 등으로 일반적으로 많이 사용하는 것만을 선택하여 연구의 범위로 삼고자 한다. 연구를 위한 세부 연구과제는 통계학 전공자의 입장에서는 초급 및 중급 수준의 내용이다. 하지만 일반적인 교재에서는 사회과학자의 수준을 고려하지 않고 서술하여 매우 어려움을 느끼고 있다. 또한 내용이 기법간의 비교 등은 이루어지지 않고 독립적으로 다루어 통계학을 조금 아는 사람들도 어려움을 느끼고 있다. 본 연구에서는 이를 보완하여 전체적으로 통계학 기법의 비교와 사회과학적 예제를 통하여 다루고자 한다. 이에 대한 내용과 범위를 정리하면 다음과 같다.
① 척도의 문제 사회과학에서 사용하는 척도의 종류에는 일반적으로 명목척도, 순서척도, 구간척도, 비율척도의 4가지로 구분하며, 척도의 종류에 따라 통계적 분석방법도 달라진다. 사회과학 분야에서 정보를 모으는 수단으로 설문지를 이용하여 조사를 하고 있다. 그러나 설문지의 형태나 문항을 어떻게 구성하는가에 따라 척도의 종류가 달라지며, 통계적 분석의 방법도 달라진다. 예를 들어 연령에 대하여 조사를 할 때, 응답에서 '만 ( ) 세'와 '10-19세, 20-29세, 30-39세'로 응답을 받을 때는 서로 척도의 종류는 달라진다. 그러나 다른 분석 방법을 사용하여야 함에도 동일한 분석방법을 택함으로 도출한 결론을 믿을 수 없게 하는 경우가 많이 존재한다. 이는 조사전문기관의 보고서에서도 오류가 흔히 나타나고 있는 실정이다. 이와 관련하여 사회과학에서 많이 사용하는 실제의 예를 들어 명확히 척도의 종류를 이해시킨다.
② 실험 설계의 문제 사회과학 분야에서 설문조사를 할 때 대부분의 경우 전수조사가 아닌 표본조사를 실시하고 있다. 그러나 표본의 선정에서 무작위추출이란 미명에서 원칙없이 조사를 실시하는 경우가 많이 존재하며, 교육의 효과 등과 같은 실험에서 실험집단과 통제집단을 나누어 실험하는 경우에도 블록화나 랜덤화의 원칙과는 별개로 실험을 실시하여 실험의 결과에 대한 신뢰도를 떨어뜨리고 있다. 이러한 실험 설계를 실제 예제를 통하여 실험의 종류 별로 설명한다.
③ 상관의 문제 변인들간의 관련성을 알고자 할 때도 변인들의 척도의 종류에 따라 , pearson의 상관계수, spearman의 상관계샬영載?같이 여러 가지 통계량이 존재하며, 사용의 방법을 달리하여야 한다. 이와 더불어 회귀의 문제도 고려하여야 한다.
④ 평균의 비교 문제 사회과학 분야에서 교육효과나 만족도의 증가, 환경의 개선 등과 같은 분야에서 평균을 비교하는 경우가 많이 존재한다. 여기에서 많이 사용하는 기법으로 t-test, ANOVA (Analysis of Variance), GLM(General Linear Model) 등과 같은 기법의 선택에서 인원수의 차이나 집단의 차이 등과 무관하게 분석하는 경우가 많이 존재한다. 그리고 요인을 선택함에도 변량인자 혹은 모수인자의 구분과 상호작용(interaction)의 유의성과 관계없이 사용하는 경우가 많이 있다. 또한 결과의 해석에서도 자의적인 경우가 많이 존재한다. 이와 같은 경우에 적절한 사회과학적 예제를 통하여 정리하고자 한다.
⑤ 반복측정의 문제 사회과학 특히 교육학적인 실험에서 많이 나타나는 모형으로 시간적 간격을 두고 측정하는 자료의 분석에서 대응표본 t-test(paired t-test), 공분산분석(ANOCOVA), 반복측정분산분석(repeated ANOVA) 등과 같은 분석을 상황에 맞게 사용하지 않고 개인의 특성에 따라 선택적으로 사용하는 경향이 많이 있다. 통계학의 전문서적에서도 이들 분석에 대하여 서로 비교하여 어떠한 경우에 사용하는지에 대하여 명확히 규정한 것이 없는 것으로 알고 있다. 하물며 사회과학자의 입장에서는 수식으로만 전개한 것을 보고 이해하기는 매우 어려운 실정이다. 이와 같은 경우에도 서로 비교하며, 실제 사용 예제를 사용하여 전개하고자 한다.
⑥ 신뢰도의 문제 사회과학적 신뢰도의 문제에서도 반복측정법, 반분법, 내적일관성 등과 같이 척도의 종류와 설문의 내용에 따라 구분하여 사용하여야 함에도 개인의 특성에 따라 사용하고 있다. 이 또한 실제 사용 예제를 통하여 전개하고자 한다.
⑦ 다변량의 문제 사회과학 분야에서 때때로 사용하는 요인분석(factor analysis), 판별분석(discriminant analysis), 군집분석(cluster Analysis) 등도 실제 예제 등을 통하여 다루고자 한다. ⑧ 표현의 문제 어떤 모형에 대하여 도출된 결과를 표의 형태로 어떻게 나타내어야만 되는지, 그리고 결과에 대하여 어떻게 해석되고 표현되어야 하는지에 대한 정리도 매우 필요하다. 이와 더불어 자연과학에서 사용하는 용어와 사회과학에서 사용하는 용어의 차이로 인하여