컴퓨터공학, 통계학, 산업공학 등의 여러 학문에서 활발하게 기계학습 기법을 연구해 온 반면, 교육학을 비롯한 사회과학 연구에서는 관련 연구가 크게 미흡하다. 최근 random forest(유진은, 2015), LASSO(유진은, 2016; 유진은, 2017), group lasso(유진은, 노민정, 20 ...
컴퓨터공학, 통계학, 산업공학 등의 여러 학문에서 활발하게 기계학습 기법을 연구해 온 반면, 교육학을 비롯한 사회과학 연구에서는 관련 연구가 크게 미흡하다. 최근 random forest(유진은, 2015), LASSO(유진은, 2016; 유진은, 2017), group lasso(유진은, 노민정, 2017) 등의 기법을 이용하여 TIMSS(Trends in Mathematics and Science Study), KYPS(Korean Youth Panel Survey), KCYPS(Korean Children and Youth Panel Survey) 등의 교육(사회과학) 패널(또는 코호트; 이하 패널로 통일)자료를 분석한 연구가 출판되기 시작하였다. 이러한 연구에서 수백 개에 이르는 변수들을 제공하는 교육 패널자료에 대하여 기계학습 기법을 적용한 점은 높이 살 만하나, random forest와 (group) lasso는 다채로운 기계학습 기법 중 일부일 뿐이다. 여러 기계학습 기법 중 어떤 기법이 교육(사회과학) 자료를 가장 잘 예측하고 설명할 수 있을지에 대한 연구가 필요하다. 컴퓨터공학, 통계학, 산업공학 등에서 주로 다루는 자료는 교육 자료와 그 특징이 다를 수 있기 때문이다.
연구자가 파악한 TIMSS, KYPS, KCYPS 등과 같은 교육(사회과학) 패널자료 및 패널자료 연구의 특징은 다음과 같다. 첫째, 수백 개에 달하는 설명변수로 인하여 변수 선택이 자유로움에도, 기존 연구방법을 쓰는 연구자들은 이론 또는 선행연구에 근거하여 기껏해야 수십 개의 변수를 모형에 이용해 왔다(유진은, 2016; 유진은, 노민정, 2017). 둘째, 기존 연구방법으로 수백 개에 달하는 설명변수를 한 모형에 투입할 경우 모형 수렴 및 다중공선성 문제가 야기될 수 있다. 셋째, 자연과학 또는 공학 쪽 자료와의 두드러진 특징으로, 교육 패널자료는 리커트(Likert) 척도로 측정된 변수가 많았다. 교육 연구에서 리커트 척도를 동간척도인 것처럼 취급하여 문항묶음을 만들어 그 합이나 평균을 이용하여 하나의 변수로 만드는 것이 그간 관례였다. 그러나 엄밀히 말하여 리커트 척도는 서열 척도이므로 동간척도처럼 이용하는 것에는 무리가 따른다. 넷째, 교육 패널자료는 명명척도로 측정된 범주형 예측변수가 많은 편이었으며, 특히 KYPS, KCYPS, 자료의 범주형 예측변수의 응답 불균형이 심각하였다. 다섯째, 자료 설계의 특성 상 ‘NA(non-administered)’ 응답이 많은 편이었다. 'NA'를 무응답으로 처리하여 완전제거법(listwise deletion)을 이용한다면, 수백 개의 변수를 모두 한 모형에 투입할 경우 전체 자료의 5%도 남지 않는다는 문제가 발생한다.
정리하자면, 교육 패널자료는 컴퓨터공학 또는 통계학에서 주로 다루는 자연과학·공학 분야 자료와 차별되는 특징이 다수 있다. 따라서 교육 패널자료의 경우 어떤 기계학습 기법이 어떤 면에서 어떻게 가장 효율적일지에 대한 기법 간 비교 연구가 필요하다. 본 연구는 (group) lasso, bagging, random forest 뿐만 아니라 elastic net, boosting, GAM(generalized additive model) 등의 기계학습 기법을 교육 패널자료에 적용하고, 기법 간 비교를 통하여 향후 교육 패널자료 분석 연구에 시사점을 제시할 것이다.