연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

기계학습 기법을 통한 교육 패널자료 분석
Educational Panel Data Analysis via Machine Learning
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 중견연구자지원사업 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2017S1A5A2A01023472
선정년도 2017 년
연구기간 3 년 6 개월 (2017년 07월 01일 ~ 2020년 12월 31일)
연구책임자 유진은
연구수행기관 한국교원대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 컴퓨터공학, 통계학, 산업공학 등의 여러 학문에서 활발하게 기계학습 기법을 연구해 온 반면, 교육학을 비롯한 사회과학 연구에서는 관련 연구가 크게 미흡하다. 최근 random forest(유진은, 2015), LASSO(유진은, 2016; 유진은, 2017), group lasso(유진은, 노민정, 2017) 등의 기법을 이용하여 TIMSS(Trends in Mathematics and Science Study), KYPS(Korean Youth Panel Survey), KCYPS(Korean Children and Youth Panel Survey) 등의 교육(사회과학) 패널(또는 코호트; 이하 패널로 통일)자료를 분석한 연구가 출판되기 시작하였다. 이러한 연구에서 수백 개에 이르는 변수들을 제공하는 교육 패널자료에 대하여 기계학습 기법을 적용한 점은 높이 살 만하나, random forest와 (group) lasso는 다채로운 기계학습 기법 중 일부일 뿐이다. 여러 기계학습 기법 중 어떤 기법이 교육(사회과학) 자료를 가장 잘 예측하고 설명할 수 있을지에 대한 연구가 필요하다. 컴퓨터공학, 통계학, 산업공학 등에서 주로 다루는 자료는 교육 자료와 그 특징이 다를 수 있기 때문이다.
    연구자가 파악한 TIMSS, KYPS, KCYPS 등과 같은 교육(사회과학) 패널자료 및 패널자료 연구의 특징은 다음과 같다. 첫째, 수백 개에 달하는 설명변수로 인하여 변수 선택이 자유로움에도, 기존 연구방법을 쓰는 연구자들은 이론 또는 선행연구에 근거하여 기껏해야 수십 개의 변수를 모형에 이용해 왔다(유진은, 2016; 유진은, 노민정, 2017). 둘째, 기존 연구방법으로 수백 개에 달하는 설명변수를 한 모형에 투입할 경우 모형 수렴 및 다중공선성 문제가 야기될 수 있다. 셋째, 자연과학 또는 공학 쪽 자료와의 두드러진 특징으로, 교육 패널자료는 리커트(Likert) 척도로 측정된 변수가 많았다. 교육 연구에서 리커트 척도를 동간척도인 것처럼 취급하여 문항묶음을 만들어 그 합이나 평균을 이용하여 하나의 변수로 만드는 것이 그간 관례였다. 그러나 엄밀히 말하여 리커트 척도는 서열 척도이므로 동간척도처럼 이용하는 것에는 무리가 따른다. 넷째, 교육 패널자료는 명명척도로 측정된 범주형 예측변수가 많은 편이었으며, 특히 KYPS, KCYPS, 자료의 범주형 예측변수의 응답 불균형이 심각하였다. 다섯째, 자료 설계의 특성 상 ‘NA(non-administered)’ 응답이 많은 편이었다. 'NA'를 무응답으로 처리하여 완전제거법(listwise deletion)을 이용한다면, 수백 개의 변수를 모두 한 모형에 투입할 경우 전체 자료의 5%도 남지 않는다는 문제가 발생한다.
    정리하자면, 교육 패널자료는 컴퓨터공학 또는 통계학에서 주로 다루는 자연과학·공학 분야 자료와 차별되는 특징이 다수 있다. 따라서 교육 패널자료의 경우 어떤 기계학습 기법이 어떤 면에서 어떻게 가장 효율적일지에 대한 기법 간 비교 연구가 필요하다. 본 연구는 (group) lasso, bagging, random forest 뿐만 아니라 elastic net, boosting, GAM(generalized additive model) 등의 기계학습 기법을 교육 패널자료에 적용하고, 기법 간 비교를 통하여 향후 교육 패널자료 분석 연구에 시사점을 제시할 것이다.
  • 기대효과
  • 다양한 기계학습 기법을 교육 패널자료에 적용하는 3년간의 연구를 통하여 변수 선택, 다중공선성, 서열척도 변수, 범주형 예측변수, 무응답 자료 등의 교육 패널자료 분석 시 필수적으로 고려해야 하나 그다지 성공적으로 처리하지 못했던 굵직한 문제들을 어느 정도 해결할 수 있을 것으로 기대한다. 구체적으로는, 본 연구 결과를 AERA(American Educational Research Association)와 같은 국제 학술대회에서 발표하고, Multivariate Behavioral Research, Educational and Psychological Measurement 등의 국제 학술지에 출판할 것이다. 또한, 한국교원대학교 대학원 수업 및 국내 학회의 연구방법론 워크숍 등에서 연구결과를 나눔으로써 국제적·국내적으로 우리나라 교육학(사회과학)계의 연구 수준을 한 단계 더 업그레이드할 수 있도록 노력할 것이다.

    ● AERA 참가 및 논문 발표
    2019년 4월 TIMSS 2015 Predictor Exploration via Elastic Net Regularization
    2020년 4월 The Application of LASSO Gradient Boosting to TIMSS 2015 data

    ● 국제학술지 투고 1~2편
    AERA 투고 논문을 수정·보완하여 국제학술지에 투고

    ● 국내학술지 투고 2~3편
    교육 승인통계인 한국교육종단조사, 한국교육고용패널조사, 한국아동청소년패널조사, 다문화청소년패널조사 등의 국내 교육 패널자료 분석 결과를 국내학술지에 투고

    ● 국내학회 연구방법론 워크숍

    ● 한국교원대학교 대학원 박사과정수업 중급 기계학습(Intermediate Machine Learning) 과목 개설
  • 연구요약
  • 교육 패널자료는 컴퓨터공학 또는 통계학에서 주로 다루는 자연과학·공학 분야 자료와 차별되는 특징이 다수 있다. 따라서 교육 패널자료의 경우 어떤 기계학습 기법이 어떤 면에서 어떻게 가장 효율적일지에 대한 기법 간 비교 연구가 필요하다. 본 연구는 (group) lasso, bagging, random forest 뿐만 아니라 elastic net, boosting, GAM(generalized additive model) 등의 기계학습(또는 통계학습) 기법을 교육 패널자료에 적용하고, 기법 간 비교를 통하여 향후 교육 패널자료 연구에 시사점을 제시할 것이다.
    더 자세히 설명하자면, 1차년도 연구에서는 교육(사회과학) 패널자료에 lasso 및 elastic net 기법을 적용함으로써 다중공선성 문제를 최소화하며 어떻게 변수를 선택할 수 있는지 알아볼 것이다. 2차년도 연구에서는 서열척도 변수와 범주형 예측변수 분석을 위하여 의사결정나무 기반 모형인 bagging, random forest, boosting 기법 중 어떤 기법이 교육 패널자료 분석에 더 강점을 보이는지 분석할 것이다. 그리고 그 결과를 1차년도의 lasso 및 elastic net 결과와 비교함으로써 벌점회귀모형과 의사결정나무 기반 기법 중 어떤 기법이 교육 패널자료 분석에 더 적합한지 제안할 수 있을 것이다.
    마지막 연도인 3차년도 연구에서는 1차년도와 2차년도 연구 결과를 바탕으로 GAM과 같이 본 연구자가 1, 2차년도 연구에서 다루지 않은 기계학습 기법들을 총망라하며 교육학을 포함한 사회과학 자료에 적합한 기법들을 파악하는 데 중점을 둘 것이다. 또한, 3차년도에는 연구자가 파악한 교육 패널자료 연구의 마지막 문제인 무응답 반응을 모의실험 연구를 통하여 집중적으로 다룰 것이다.
결과보고시 연구요약문
  • 국문
  • 본 연구자는 사회과학 분야 빅데이터 분석·기계학습 분야에서 활발하게 연구하고 있다. 2015년 이래 빅데이터 분석·기계학습으로 총 23편의 국내외 논문(SSCI 저널 및 학진등재지)을 출판하였고, 국제학술대회에서 13건(AERA 5건, NCME 1건, EDM 1건 포함)의 논문을 발표(예정)하였다. 2021년 6월 『AI 시대 빅데이터 분석과 기계학습』을 단독저서로 출판하였다. 교내외 연구방법론 워크숍에서도 기계학습 및 데이터 마이닝 기법을 다루었으며, 한국교원대학교 일반대학원에서 ‘기계학습’ 강좌를 개설하며 관련 주제의 석·박사학위논문 지도교수로 활동 중이다.
    연구자는 사회과학 자료 분석 시 변수 선택, 다중공선성, 리커트 척도 이용, 범주형 예측변수의 응답 불균형, 무응답 반응뿐만 아니라 텍스트 마이닝 기법을 활용한 교육 자료 분석, 위계적 자료에 대한 기계학습 기법 적용, 기계학습 기법을 적용한 학습분석학, 변수 선택 후 통계적 추론까지 다루었다.
    특히 사회과학 대용량자료 분석에 규제화 기법을 적용하는 분야를 새롭게 개척하였다. 이를테면 유진은(2016)은 사회과학 대용량자료를 분석한 첫 번째 규제화 기법 논문이다. 결측이 있는 사회과학 대용량자료에 규제화 기법을 적용한 노민정, 유진은(2019)과 Yoo & Rho(2021)도 이 분야를 개척한 연구이다. 각각 사회과학 대용량자료에 LASSO와 MCP, 그리고 group Mnet 기법을 적용한, 전세계적으로 첫 번째 모의실험연구이다. 김형관, 유진은(2020)과 노민정, 유진은(2021) 또한 사회과학 대용량자료에 각각 glmmLasso 기법과 규제화 기법에서의 통계적 추론을 적용한 첫 번째 실증연구일 것으로 사료된다.
  • 영문
  • The principal investigator has been actively studying machine learning and big data analysis in social science. Since 2015, she has published a total of 23 journal articles (SSCI and KCI) and made 13 conference presentations including AERA (American Educational Research Association), NCME (National Council on Measurement and Evaluation), and EDM (Educational Data Mining). She is the sole author of AI, big data analysis, and machine learning, published in June 2021. Beyond publishing scholarly articles and making conference presentations, she has been giving training courses and workshops in machine learning. She also has been an advisor to several graduate students in master’s and doctoral programs at KNUE.
    She has investigated many topics in social science big data analysis and machine learning including variable selection, multicollinearity, Likert-scaled variables’ coding, response imbalance of categorical predictors, missing data, text mining techniques, hierarchical data analysis via machine learning, learning analytics with machine learning, and post-selection inference. Particularly, she is a pioneer in social science large-scale data analysis with regularization (penalized regression). For instance, Yoo (2016) is the first article to analyze social science large-scale data with LASSO, a penalized regression technique. Rho & Yoo (2019) and Yoo & Rho (2021) are also the first simulation study to apply MCP and group Mnet to social science large-scale data, respectively. Kim & Yoo (2020) is the first empirical research to investigate glmmLasso, a regularization technique for hierarchical data, and Rho & Yoo (2021) is the first empirical research to apply post-selection inference to social science large-scale data as well.
연구결과보고서
  • 초록
  • 2017년부터 2018년까지의 1차년도 연구는 그 중 변수 선택과 다중공선성에 초점을 맞추었다. 더 자세히 설명하자면, 하나의 연구모형에서 ‘다중공선성 문제를 최소화하며 예측력이 높은 변수를 선택하기’가 1차년도 연구의 핵심이었다. 1차년도의 대표적인 연구 성과로는 기계학습법을 TIMSS 자료에 적용하여 SSCI 저널과 학진등재지에 출판한 것, 그리고 국내외 학술대회에 발표한 것 등을 들 수 있다. 연구계획서에서 언급하지 않았으나 연구를 수행하며 추가된 주제로, ‘text mining 기법을 이용한 교육 자료 분석’이 있다. 인터넷 기사 및 댓글과 같은 빅데이터(big data)를 기계학습법인 텍스트마이닝(text mining)을 이용하여 분석하는 연구는 컴퓨터공학에서 시작되어 사회과학에까지 세력이 확장되고 있다. 본 연구자는 2018년 5월에 수능 절대평가에 대한 여론과 언론을 LDA(Latent Dirichlet Allocation) 기반 텍스트마이닝 기법으로 분석한 논문을 출판하였다.
    2018년부터 2019년까지의 2차년도 연구는 1차년도의 변수 선택 및 다중공선성 문제와 더불어 무응답 반응과 리커트 척도에 초점을 맞추었다. 2차년도의 대표적인 연구 성과로 다수의 논문 출판을 포함하여 3건의 국제학술대회와 1건의 국내학술대회 발표, ‘기계학습’으로 3학점 대학원 강좌를 개설하고 국내 연구방법론 워크숍에서 기계학습 기법을 알린 것, 그리고 기계학습으로 논문을 쓴 박사 및 석사를 각각 1인 배출한 것 등을 들 수 있다. 이 중 사회과학 대용량 자료 분석 맥락에서의 무응답 반응에 대한 모의실험연구를 2019년 미국 교육학회인 AERA에서 발표함으로써 국내외 학자들과 교류하고 연구 아이디어를 발전시키는 기회를 가질 수 있었다.
    2019년부터 2020년까지의 3차년도에는 변수 선택 및 다중공선성 문제와 더불어 리커트 척도, 범주형 예측변수의 응답 불균형, 그리고 무응답 반응과 같은 교육 패널자료의 특징을 총괄적으로 다루었다. 사회과학 대용량 자료에 대하여 group Mnet과 같은 최신 규제화 기법을 적용하는 것은 물론이고, 2년차 연구 결과를 바탕으로 구체적이고 실질적으로 사회과학 대용량 자료를 모방하는 모의실험 자료를 생성하고 다양한 기계학습 기법의 성능을 비교하였다. 그 결과를 2020년 AERA, NCME, KCYPS 등의 국내외 학술대회에서 발표하고 다수의 국내외 학술지에 출판한 바 있다.
    또한, 2017년의 연구계획서에서 다루지 않았으나 3년차 연구를 수행하며 추가된 주제로 ‘위계적 자료(hierarchical data)에 대한 기계학습 기법 적용’, ‘기계학습 기법을 활용한 학습분석학(learning analytics)’, 그리고 ‘변수 선택 후 통계적 추론’이 있다. 교육 패널자료는 학교-학생으로 위계가 있는 경우가 많은데, 일반적으로 기계학습 연구에서 이러한 자료의 위계는 고려되지 않는다. 김형관, 유진은(2020), 구미령, 유진은(2021), 유진은, 구미령(2021)에서 위계적 자료에 대한 규제화 기법인 glmmLasso를 활용한 실증연구 및 모의실험연구를 수행하고 출판하였다.
    기계학습 기법을 활용한 학습분석학 자료 분석 또한 아직 미개척된 블루오션이다. 학습분석학 자료는 빅데이터(big data)이므로 기계학습 기법이 필수적인 반면, 그간 학습분석학 연구는 전통적인 기법으로 분석하는 연구가 대부분이다. 유진은(2020), Yoo & Rho (2021, accepted)에서 규제화(regularization)와 같은 기계학습 기법을 활용하여 LMS(learning management system) 로그 자료를 분석하고 그 함의를 논하였다.
    마지막으로 추가된 연구 주제는 규제화 기법 적용 후 선택된 변수에 대한 통계적 추론이다. 규제화 기법은 예측오차를 최소화하는 모형을 구축하기 위하여 편향된 추정치를 도출하므로 규제화 기법에서의 통계적 추론은 한동안 통계학자들의 난제였다. 노민정, 유진은(2021)은 Lee et al. (2016)이 제안한 PSI(post-selection inference)를 사회과학 대용량 자료에 적용하여 통계적 추론을 시행한 논문을 출판하였다. 이는 관련 주제로는 국내외 최초의 논문으로 사료된다.
  • 연구결과 및 활용방안
  • (1) 사회과학 연구와 기계학습
    빅데이터 시대의 도래와 함께 빅데이터를 분석하여 의미있는 패턴을 도출하고 분류하고자 하는 시도가 지속되며 빅데이터를 활용하여 정보를 창출하고 활용하는 데이터사이언스(data science)가 새로운 학문으로 급부상하였다. 빅데이터 분석에 최적화된 기법이 바로 기계학습 기법이다. 기계학습 기법이 비수렴, 과적합 등의 문제를 줄이며 ‘예측’ 모형을 산출하나, ‘설명’은 상대적으로 경시하는 경향으로 인하여 사회과학 자료 분석 시 제한점이 존재한다(유진은, 2019). 특히 소위 블랙박스(black box) 모형으로 불리는 딥러닝(deep learning), 랜덤포레스트(random forest), SVM(support vector machines)과 같은 비모수(nonparametric) 또는 비선형(nonlinear) 기법이 그러하다. 이렇게 예측에 치중하는 기법은 해석하기 어려운 모형을 도출하는 것이다(Yoo & Rho, 2020, 2021). 블랙박스 모형에서도 부분의존성 도표 또는 변수 중요도 지수 등을 제시하기는 하나, 복잡한 고차 효과(higher-order effects) 및 상호작용 효과(interaction effects)로 구성되는 블랙박스 모형에서 더 이상의 설명은 힘들다.
    자율주행 알고리즘 개발, 사진 판독과 같이 예측이 최우선인 분야에서는 설명을 하지 못해도 문제가 없다. 어떤 장치의 몇 번째 센서 정보가 자동차 핸들 방향을 결정하는 데 중요한 역할을 했다, 또는 사진의 어느 픽셀이 이 사진을 구분하는 데 결정적인 정보를 제공했다는 식의 설명을 못해도 상관없는 것이다. 그러나 이렇게 ‘예측’에 방점이 찍히는 데이터사이언스와 달리, 사회과학 자료를 분석할 때는 예측뿐만 아니라 설명 또한 중시되어야 한다. 예를 들어 어떤 학생이 실패할 가능성이 높은지 예측만 하는 기계학습 모형보다는, 왜 그 학생이 실패할 가능성이 높은지 설명도 할 수 있는 기계학습 모형이 필요하다. 교수자가 왜, 어떠한 이유에서 그 학생이 실패할 가능성이 높은지 이해하고 납득할 때, 이후 수반되는 교수·학습 전략이 교수자뿐만 아니라 학습자에게도 의미를 가지며 더욱 더 효과적으로 기능할 수 있기 때문이다(Yoo, submitted).

    (2) 사회과학 대용량/패널자료 분석 시 규제화 기법의 의의
    본 연구자가 2015년 이래 사회과학 대용량자료에 대하여 다양한 기계학습 기법을 적용하며 연구한 결과, 벌점회귀모형과 같은 규제화 기법이 사회과학 자료 분석에 가장 적합한 기법 중 하나라는 것을 파악하였다. 이를테면 LASSO는 선형 회귀모형 기반으로 목적함수에 벌점을 부과하여 상대적으로 중요하지 않은 변수의 회귀계수를 0으로 만들기 때문에 기존의 회귀모형처럼 회귀계수를 해석할 수 있다. 즉, 규제화 기법은 설명(해석)이 가능한 예측모형을 도출한다는 장점을 지닌다(Yoo & Rho, 2020, 2021). 사례 수가 많지 않은 사회과학 자료의 경우 예측 성능에 있어서도 딥러닝이 다른 기계학습 기법에 비하여 그다지 뛰어나지 않다는 연구 또한 속속 등장하고 있다(예: Gervet et al., 2020). 특히 사회과학 대용량자료 분석 맥락에서 group Mnet과 같은 규제화 기법이 랜덤포레스트와 비교 시 예측력에 있어서도 우위를 보였다는 점을 눈여겨볼 만하다(Yoo & Rho, 2021).
    사회과학 대용량/패널자료 분석 맥락에서 규제화 기법을 적용할 때의 장점을 구체적으로 정리하면 다음과 같다. 첫째, 규제화 기법은 기계학습 기법 중 설명이 가능한 예측모형을 도출한다. 둘째, 변수 조합이 달라지거나 데이터 행이 추가/삭제되어도 상대적으로 안정적인 예측모형을 산출할 수 있다. 셋째, 사회과학 대용량자료의 수백, 수천 개의 변수를 한 모형에 투입하여 기존 연구 및 이론에서 미처 파악하지 못한 중요한 변수를 찾아낼 수 있다. 넷째, 규제화 기법은 빅데이터, 특히 고차원 자료(high-dimensional data) 분석 시 각광받는 예측모형 구축 및 변수 선택 기법이다. 따라서 사회과학 대용량/패널자료의 수백, 수천 개의 변수를 한 모형에 투입해도 비수렴(nonconvergence) 문제가 발생하지 않으며, 과적합(overfitting) 문제 또한 최소화할 수 있다.
  • 색인어
  • 기계학습, 규제화, 빅데이터, 사회과학 대용량자료, 텍스트마이닝, 무응답자료, 위계적 모형, 벌점회귀모형, 리커트 척도, 변수 선택 후 추론
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력