연구과제 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10079012&res=y

말뭉치 기반 어휘 평가 기제 구축을 위한 연구
Corpus-based Study on the Construction of Mechanism for Assessing Vocabulary

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

사업명	학문후속세대양성_학술연구교수& #40;인문사회& #41; [지원년도 신청 요강 보기 ]
연구과제번호	2017S1A5B5A02025982
선정년도	2017 년
연구기간	3 년 (2017년 07월 01일 ~ 2020년 06월 30일)
연구책임자	안의정
연구수행기관	연세대학교
과제진행현황	종료

과제신청시 연구개요

연구목표
언어 교육에서 어휘 평가는 언어 교육 방법의 타당성을 입증하기 위한 방편으로 반드시 필요한 개념이며 절차이다. 그런데 어휘 평가는 주로 영어 교육을 중심으로 연구가 진행되어 왔음을 알 수 있다. 언어활동에서 어휘가 차지하는 비중이 큰 것에 비해 한국어에서는 어 ...

언어 교육에서 어휘 평가는 언어 교육 방법의 타당성을 입증하기 위한 방편으로 반드시 필요한 개념이며 절차이다. 그런데 어휘 평가는 주로 영어 교육을 중심으로 연구가 진행되어 왔음을 알 수 있다. 언어활동에서 어휘가 차지하는 비중이 큰 것에 비해 한국어에서는 어휘에 대한 연구가 폭넓게 이루어지지 못하였다. 그러나 최근 한국어 교육에 대한 수요가 급증하며 다양한 언어 배경을 가진 학습자가 증가하고 있으며, 대학에서의 유학생의 증가를 통해 볼 때 한국어 학습자의 어휘 평가에 대한 연구가 공고해져야 할 필요성이 있다.
어휘 평가에서 가장 많이 이용되는 방법은 학습자가 얼마나 풍부하게 어휘를 구사할 수 있는가에 대한 측정이다. 이를 어휘의 풍요도 측정이라고 하는데, 학습자들의 어휘 능력을 평가하는 기제로 주로 이용하는 방법으로, 어휘 다양도, 어휘 밀도, 어휘 세련도, 오류의 수 등이 있다. 영어권에서는 관련 연구가 1970년대부터 시작되었지만, 한국어에서는 비교적 최근에 와서야 연구가 시작되었다. 그러나 외국인 학습자의 어휘 측정을 다룬 기존 연구는 영어 측정 방법을 답습하거나, 작업 과정에 대한 자세한 설명이 없이 측정 결과만을 보여주는 경우가 많다. 즉, 자세한 측정 방법이나 측정 과정상의 주의점에 대해서도 다루어진 바가 없는데, 이는 매우 중요한 작업이라고 할 수 있다.
위와 같은 어휘의 사용량에 대한 평가뿐 아니라, 제2언어 교육에 있어서는 언어 사용역을 고려한 어휘 평가가 필요하다. 어휘의 사용 양상은 텍스트의 유형에 따라 달라지는데, 이러한 어휘 선택이 외국인 학습자에게 쉬운 문제가 아니다. 특히 한국어를 모국어로 습득한 이중언어 학습자들은 구어를 1차 언어 수단으로 하여 언어 습득이 되었기 때문에 일상대화는 자연스럽게 구사할 수 있어도, 이를 쓰기에도 그대로 가져와 국어 맞춤법에서 오류를 범할 가능성도 크다. 이 경우 구어성에 대한 측정은 이들의 쓰기 오류 교정을 위한 중요한 학습 기제로도 이용될 수 있다. 어휘 사용의 구어성 또는 문어성을 측정하는 것은 포괄적 어휘 측정이 될 것이며, 학습자가 산출한 쓰기 텍스트의 질적인 면에 대한 전반적인 평가가 될 것이다. 아울러 한국어에 능숙한 모국어 화자도 쓰기 과정에서 구어성이 종종 드러나므로 모국어 화자의 쓰기 교육을 위해서도 유용할 것이다. 이 역시 어휘 풍요도 측정과 마찬가지로 양적 접근이 될 것이며, 대규모 말뭉치를 기반으로 한 연구가 필요할 것으로 보인다.
구어 자료는 문어와는 달리 자료로 구축되기 힘든 면이 있다. 따라서 한국어 어휘 평가에서 구어 자료가 이용된 사례가 거의 드물며, 구어 어휘에 대한 양적 연구도 미비한 실정이다. 기존 연구의 문제점은 구어와 문어의 전체 어휘에 대해 이루어지지 못했다는 점과 자료가 극히 적은 점, 작업 결과로서 구체적인 목록이 부재하다는 점을 들 수 있다. 따라서 이 자료를 어휘 사용의 구어성과 문어성 평가에 이용하기에는 부족한 점이 있다.
이 연구의 목적은 첫째, 한국어를 대상으로 하여 어휘 다양도와 어휘 밀도 등과 같은 어휘 풍요도를 측정할 때 주의해야 할 사항을 면밀히 조사하여 정리하고자 한다. 이 과정에서 국어학과 한국어 교육에 필요한 어휘 관련 목록들이 정리될 수 있을 것이다. 이 작업은 실제 말뭉치를 대상으로 하여 진행될 것이며, 그 과정에서 필요한 측정 도구를 개발하여 연구자들과 공유하고자 한다. 둘째, 한국어 개별 어휘별로 문어성/중립성/구어성을 측정하기 위해 다양한 언어 사용역을 대상으로 하여 양적 연구와 통계적 방법을 수행한다. 그 결과 말뭉치에 나타나는 모든 한국어 어휘(어형)를 대상으로 어휘의 문체적 구분이 가능해질 것이며, 말뭉치에 출현한 사용역별 빈도수와 함께 자료화하여 타연구자들과 공유할 것이다. 셋째, 표현 활동인 쓰기와 말하기 영역에서 학습자를 대상으로 포괄적 어휘 평가를 시행할 것이다. 그리고 평가 후에는 학습자의 어휘 능력의 척도를 제시하여 학습의 향상도를 정확히 제시하고 문제점을 파악하며, 효율적인 피드백이 가능하도록 다양한 교정 정보를 제시하는 방안에 대해 최종적으로 연구할 것이다.

기대효과
본 연구가 수행되면 다음과 같은 기대효과를 얻을 수 있다. 먼저 구체적인 중간결과물로는, 1차년도에 한국어 문어 텍스트와 구어 텍스트의 유형별 어휘 풍요도 값(어휘 다양도/밀도/세련도)을 얻을 수 있고, 한국어 문어/구어별 다중 어휘 항목의 목록과 빈도 데이터가 ...

본 연구가 수행되면 다음과 같은 기대효과를 얻을 수 있다. 먼저 구체적인 중간결과물로는, 1차년도에 한국어 문어 텍스트와 구어 텍스트의 유형별 어휘 풍요도 값(어휘 다양도/밀도/세련도)을 얻을 수 있고, 한국어 문어/구어별 다중 어휘 항목의 목록과 빈도 데이터가 작성될 수 있다. 다중 어휘 항목에는 다단어 구의 목록, 관례화된 표현의 목록, 구 제약 목록, 문장 구성체의 목록 등이 있다. 2차년도에는 품사 정보와 동형어 구분이 태깅된 등급별/국적별 학습자 문어와 구어 말뭉치를 구축하게 되며, 오류 태깅된 등급별/국적별 학습자 문어 말뭉치와 학습자 산출 한국어 문어 텍스트의 다중 어휘 항목의 목록과 빈도를 얻을 수 있다. 그리고 사용역 지식 평가를 위한 한국어 어휘의 구어성/중립성/문어성 점수 마킹 목록과 이에 따라 나뉜 등급별 목록이 완성되어 활용될 수 있다. 마지막으로 3차년도에는 품사 정보와 동형어 구분, 학습자 오류가 태깅된 등급별/국적별 학습자 구어 말뭉치와 학습자 산출 한국어 구어 텍스트의 다중 어휘 항목의 목록과 빈도가 완성될 수 있다. 그리고 3차년도에는 학습자 쓰기 자료의 구어성 측정 결과와, 학습자 말하기 자료의 문어성 측정 결과가 중간결과물로 산출될 수 있는데, 이는 국어학이나 국어학의 응용 분야에서 활용도가 높은 목록이라고 할 수 있다. 그리고 3년간의 연구를 완성시키기 위해 개발된 어휘 풍요도 측정 프로그램과 사용역 지식 측정 프로그램, 평가 명세서 표현을 위한 프로그램도 아울러 이용할 수 있게 될 것이다.
본 연구는 다음과 같은 학문적이고 사회적인 기여도를 갖게 될 것이다. 먼저 제2 언어 능력 시험에 활용될 수 있다. 현재 진행 중인 한국어 능력 시험 작성에 본 연구에서 산출된 여러 목록들이 활용될 수 있다. 각 목록은 빈도와 같은 중요도가 표시되어 있기 때문에 시험 출제에 이용할 때도 이 부분이 난이도 산출 자료로 유용하게 쓰일 수 있다. 둘째 국가 사업으로 진행 중인 한국어 학습자 말뭉치 구축 및 활용 사업에 자문 자료로 쓰일 수 있다. 셋째 한국어 교육 분야에 새로운 방법론을 도입할 수 있다. 기존의 학습자 평가와 교육 관련 논문의 연구 동향을 살펴보면, 자료를 이용하였다 하더라도 대부분 단순 빈도 산출이라는 문제점이 있다. 따라서 양적 연구의 내실화와 방법론의 한계를 보완하려는 노력이 필요한데, 본 연구는 기존의 국어 교육이나 응용언어학에서 이용하고 있는 어휘 계량 방법론을 도입한 획기적인 연구이며, 그 방법론과 결과물이 한국어 교육에서 적극적으로 활용될 수 있을 것이다. 넷째 어휘 풍요도 점수와 구어성/문어성 점수를 통해 진단된 학습자의 어휘 능력 측정 결과를 이용하여 효율적인 어휘 교수안을 작성할 수 있다. 이에는 어휘량 증가를 위한 방안과 내용어 전달 능력, 언어 사용역에 맞는 어휘 구사력 등이 포함될 수 있을 것이다. 마지막으로 어휘 교육 응용 프로그램 개발을 위한 데이터를 제공할 수 있다. 현재 웹에서 사용되는 영어의 어휘 교육 프로그램들에는 빈도에 따른 목록을 제시하고 이를 게임으로 풀어가는 도구가 많은데, 한국어를 대상으로 비슷한 프로그램을 개발할 때 본 연구의 데이터가 중요하게 쓰일 수 있을 것이다.
본 연구는 인력 양성과 교육, 후속 연구와의 연계 방안에도 활용될 수 있다. 먼저 본 연구에서 소개하고 구축한 연구 자료 및 연구 방법론은 관련 연구소의 연구력 향상 및 국어학의 응용언어학 분야인 언어정보학 협동과정 대학원생의 지도에 활용될 수 있다. 둘째, 본 연구에서 이용한 여러 통계적 기법의 교수가 연구소의 워크샵이나 콜로키움에서 교육된다면, 다른 연구 분야에서도 활용될 수 있을 것이다. 마지막으로 자료 구축 및 가공 세미나를 정례화하여 언어정보학과 자료 기반 국어학 연구를 하는 대학원생들을 대상으로 정기적으로 세미나를 개최하여 자료 가공 방법 및 주석 방법에 대해 스터디를 진행하고, 분석 결과를 이용하여 다른 논문을 작성할 수 있도록 지도가 가능하다.

연구요약
본 연구는 다음과 같은 내용적인 특징과 추진 전략을 이용하여 연구가 수행될 것이다. 먼저 본 연구는 대규모의 말뭉치와 최신의 통계적 기법을 사용하는 새로운 방법론을 도입한 연구이다. 기존의 연구는 구어 자료의 특수성으로 인해 매우 적은 분량-약 5만 어절 정도- ...

본 연구는 다음과 같은 내용적인 특징과 추진 전략을 이용하여 연구가 수행될 것이다. 먼저 본 연구는 대규모의 말뭉치와 최신의 통계적 기법을 사용하는 새로운 방법론을 도입한 연구이다. 기존의 연구는 구어 자료의 특수성으로 인해 매우 적은 분량-약 5만 어절 정도-밖에는 이용하지 못하였다. 그러나 본고에서는 문어와 구어 말뭉치를 각각 100만 어절이라는 동일 분량을 이용하고자 한다. 아울러 한국어 교육 기관에서 구축한 학습자 말뭉치를 이용할 것이다. 이는 입력과 전사만 된 상태로 아직 충분한 분석이 이루어지지 않았지만, 본 연구를 통하여 다각도의 분석이 이루어지게 될 것이다. 이는 일반적인 구어 말뭉치보다도 구축하기 힘든 것으로, 각각의 분량은 학습자 문어 말뭉치가 27만 어절, 학습자 구어 말뭉치가 37만 어절이다. 본 연구는 품사 분석과 함께 동형어 구분 태깅을 목표로 한다. 이는 한국어 자료로는 드물게 분석의 정밀함까지 갖춘 자료라고 할 수 있다. 그리고 연구의 효율을 높이기 위해 연구 과정 중에 필요한 여러 가지 측정 도구도 개발할 예정이다.
둘째 본 연구에서는 평가 기제간의 통합적이고 유기적인 연관성 분석이 이루어질 것이다. 기존의 어휘 평가는 문장의 길이와 출현횟수, 어휘량 측정이 대부분이었다. 그러나 본 연구에서는 본격적으로 어휘 풍요도를 측정하고자 하는데, 이에는 어휘 다양도와 어휘 밀도, 오류의 수, 어휘 세련도 등이 있다. 그리고 마지막으로 텍스트의 문체적 구별이라고 할 수 있는 구어성과 문어성을 측정하게 된다. 이러한 평가 요소들은 학습자가 생산하는 텍스트의 유형에 따라 적절하게 사용되어야 할 어휘적 특징이며, 이를 계량화하여 객관적 지표로 제시하여 학습자의 향상도 측정을 가능하게 하는 것이다. 어휘 풍요도를 측정하는 기제들은 한국어에서 다양하게 연구되지 못한 측면이 있다. 어휘 다양도는 원래 아동의 제1언어 발달을 측정하기 위해 사용되었는데, 유형(type) 수를 출현(token) 수로 나눈 것인데, 이 기법에는 몇 가지 문제점과 양적 특징이 있다. 따라서 TTR을 이용할 때는 텍스트의 크기와 샘플 추출 위치를 동일하게 맞출 필요가 있다. 어휘 밀도는 내용어의 비율을 구하는 것인데, 텍스트의 가독성과도 관련된다. 한국어의 경우 내용어의 범위에 대해 대략 영어의 기준을 따르고 있다. 영어는 40%대에서 구어와 문어가 나뉘고, 밀도가 30% 미만일 경우 어휘적으로 희박하다고 보고 있다. 그러나 한국어를 대상으로 한 결과는 없으므로 1차년도에 모어 화자의 자료로 유형별 기준치를 정확히 측정하여 외국인 학습자의 측정치에 대한 기준을 제시할 것이다. 어휘 세련도는 전문용어나 특수용어와 같은 저빈도 어휘를 적절한 위치에 사용하는 능력을 측정하는 기제이다. 구어성과 문어성의 측정은 학습자가 텍스트의 문체적 구분을 정확히 할 수 있는가의 여부를 측정하는 것이다. 이 부분이 완벽해진다면 학습자는 모국어 화자에 가까운 자연스러운 쓰기와 말하기가 가능하게 되어 텍스트의 완성도를 높일 수 있다.
본 연구는 단계별로 완성도를 지니는 순차적 연구를 진행할 것이다. 먼저 1차년도에는 이론 연구와 자료 정비를 집중적으로 진행할 것이다. 이때 영어가 아닌 한국어 대상 분석 방법론의 검토와 확립이 이루어질 것이고, 자료 정비에서는 기구축 자료의 검토, 모국어 자료를 대상으로 한 어휘 풍요도 측정이 이루어질 것이다. 이 과정에서 다양한 목록이 작성될 것이며, 측정에 필요한 도구도 개발할 예정이다. 2차년도에는 텍스트의 풍요도 측정을 학습자 자료를 대상으로 진행할 것이다. 품사 분석과 1차년도에서 마련한 목록에 대한 상호참조 작업은 이 단계에서 이루어진다. 그리고 2차년도에는 구어성/문어성 측정을 위한 기본 자료를 가공하는 작업을 시작한다. 마지막으로 3차년도에는 2차년도의 결과를 바탕으로 학습자의 구어성/문어성 측정이 진행될 것이다. 말하기 자료는 학문목적과 일반목적 학습자의 자료를 고르게 이용할 것이다. 그리고 2차년도의 어휘 풍요도 측정 결과와 함께, 진단된 학습자의 어휘 능력에 대한 평가 기제를 완성한다.

결과보고시 연구요약문

국문
본 연구는 다음과 같은 내용적인 특징과 추진 전략을 이용하여 연구가 수행되었다. 먼저 본 연구는 대규모의 말뭉치와 최신의 통계적 기법을 사용하는 새로운 방법론을 도입한 연구이다. 기존의 연구는 구어 자료의 특수성으로 인해 매우 적은 분량-약 5만 어절 정도-밖에 ...

본 연구는 다음과 같은 내용적인 특징과 추진 전략을 이용하여 연구가 수행되었다. 먼저 본 연구는 대규모의 말뭉치와 최신의 통계적 기법을 사용하는 새로운 방법론을 도입한 연구이다. 기존의 연구는 구어 자료의 특수성으로 인해 매우 적은 분량-약 5만 어절 정도-밖에는 이용하지 못하였다. 그러나 본고에서는 문어와 구어 말뭉치를 각각 100만 어절이라는 동일 분량을 이용하고자 한다. 아울러 한국어 교육 기관에서 구축한 학습자 말뭉치를 이용하였다. 이는 입력과 전사만 된 상태로 아직 충분한 분석이 이루어지지 않았지만, 본 연구를 통하여 다각도의 분석이 이루어졌다. 이는 일반적인 구어 말뭉치보다도 구축하기 힘든 것으로, 각각의 분량은 학습자 문어 말뭉치가 27만 어절, 학습자 구어 말뭉치가 37만 어절이다. 본 연구는 품사 분석과 함께 동형어 구분 태깅을 목표로 하였다. 이는 한국어 자료로는 드물게 분석의 정밀함까지 갖춘 자료라고 할 수 있다. 그리고 연구의 효율을 높이기 위해 연구 과정 중에 필요한 여러 가지 측정 도구도 개발하였다.
둘째 본 연구에서는 평가 기제간의 통합적이고 유기적인 연관성 분석이 이루어졌다. 기존의 어휘 평가는 문장의 길이와 출현횟수, 어휘량 측정이 대부분이었다. 그러나 본 연구에서는 본격적으로 어휘 풍요도를 측정하고자 하는데, 이에는 어휘 다양도와 어휘 밀도, 오류의 수, 어휘 세련도 등이 있다. 그리고 마지막으로 텍스트의 문체적 구별이라고 할 수 있는 구어성과 문어성을 측정하게 된다. 이러한 평가 요소들은 학습자가 생산하는 텍스트의 유형에 따라 적절하게 사용되어야 할 어휘적 특징이며, 이를 계량화하여 객관적 지표로 제시하여 학습자의 향상도 측정을 가능하게 하는 것이다. 어휘 풍요도를 측정하는 기제들은 한국어에서 다양하게 연구되지 못한 측면이 있다. 어휘 다양도는 원래 아동의 제1언어 발달을 측정하기 위해 사용되었는데, 유형(type) 수를 출현(token) 수로 나눈 것인데, 이 기법에는 몇 가지 문제점과 양적 특징이 있다. 따라서 TTR을 이용할 때는 텍스트의 크기와 샘플 추출 위치를 동일하게 맞출 필요가 있다. 어휘 밀도는 내용어의 비율을 구하는 것인데, 텍스트의 가독성과도 관련된다. 한국어의 경우 내용어의 범위에 대해 대략 영어의 기준을 따르고 있다. 영어는 40%대에서 구어와 문어가 나뉘고, 밀도가 30% 미만일 경우 어휘적으로 희박하다고 보고 있다. 그러나 한국어를 대상으로 한 결과는 없으므로 1차년도에 모어 화자의 자료로 유형별 기준치를 정확히 측정하여 외국인 학습자의 측정치에 대한 기준을 제시하였다. 어휘 세련도는 전문용어나 특수용어와 같은 저빈도 어휘를 적절한 위치에 사용하는 능력을 측정하는 기제이다. 구어성과 문어성의 측정은 학습자가 텍스트의 문체적 구분을 정확히 할 수 있는가의 여부를 측정하는 것이다. 이 부분이 완벽해진다면 학습자는 모국어 화자에 가까운 자연스러운 쓰기와 말하기가 가능하게 되어 텍스트의 완성도를 높일 수 있다.
본 연구는 단계별로 완성도를 지니는 순차적 연구를 진행하였다. 먼저 1차년도에는 이론 연구와 자료 정비를 집중적으로 진행하였다. 이때 영어가 아닌 한국어 대상 분석 방법론의 검토와 확립이 이루어질 것이고, 자료 정비에서는 기구축 자료의 검토, 모국어 자료를 대상으로 한 어휘 풍요도 측정이 이루어졌다. 이 과정에서 다양한 목록이 작성될 것이며, 측정에 필요한 도구도 개발하였다. 2차년도에는 텍스트의 풍요도 측정을 학습자 자료를 대상으로 진행하였다. 품사 분석과 1차년도에서 마련한 목록에 대한 상호참조 작업은 이 단계에서 이루어진다. 그리고 2차년도에는 구어성/문어성 측정을 위한 기본 자료를 가공하는 작업을 시작하였다. 마지막으로 3차년도에는 2차년도의 결과를 바탕으로 학습자의 구어성/문어성 측정이 진행하였다. 말하기 자료는 학문목적과 일반목적 학습자의 자료를 고르게 이용하였다. 그리고 2차년도의 어휘 풍요도 측정 결과와 함께, 진단된 학습자의 어휘 능력에 대한 평가 기제를 완성하였다.

영문
This study was conducted using the following content characteristics and promotion strategies. First, this study introduces a new methodology using a large-scale corpus and the latest statistical techniques. Existing studies have only been able to use ...

This study was conducted using the following content characteristics and promotion strategies. First, this study introduces a new methodology using a large-scale corpus and the latest statistical techniques. Existing studies have only been able to use a very small amount -about 50,000 words- due to the specificity of spoken data. However, in this paper, I intend to use the same amount of written and spoken corpus of 1 million words each. In addition, the learner corpus constructed by the Korean language education institution was used. This is a state of input and transcription, and sufficient analysis has not yet been made, but through this study, multi-angle analysis was performed. This is more difficult to construct than a general spoken corpus, and each volume is 270,000 words in the learner's written corpus and 370,000 words in the learner's spoken corpus. This study aimed at the analysis of parts of speech and the classification of homomorphic words and tagging. It can be said that this is rare in Korean data, and has the precision of analysis. In addition, in order to increase the efficiency of the research, various measurement tools required during the research process were also developed.
Second, in this study, an integrated and organic relationship analysis between evaluation mechanisms was conducted. In the existing vocabulary evaluation, most of the sentence length, the number of appearances, and the amount of vocabulary were measured. However, this study aims to measure vocabulary abundance in earnest, including vocabulary diversity, vocabulary density, number of errors, and vocabulary refinement. And finally, it measures the colloquiality and written language, which can be said to be the stylistic distinction of the text. These evaluation factors are lexical features that should be used appropriately according to the type of text produced by the learner, and quantify them and present them as objective indicators to enable the measurement of learners' progress. Mechanisms for measuring vocabulary abundance have aspects that have not been studied in various ways in Korean. Vocabulary diversity was originally used to measure the development of a child's first language. It is the number of types divided by the number of tokens. This technique has several problems and quantitative characteristics. Therefore, when using TTR, it is necessary to match the text size and sample extraction location. Vocabulary density is a measure of the proportion of content words, and is also related to the readability of text. In the case of Korean, the scope of the content language is roughly followed by the standard of English. English is divided into spoken and written languages in the 40% of the world, and if the density is less than 30%, it is considered to be lexical sparse. However, since there is no result for Korean language, the standard values for foreign learners were suggested by accurately measuring the standard values for each type using the data of the native speaker in the first year. Vocabulary refinement is a measure of the ability to use low-frequency vocabulary such as technical terms and special terms in appropriate places. The measurement of spoken and written language is to measure whether or not a learner can accurately distinguish stylistic texts. If this part is complete, learners can write and speak naturally close to the speaker of their native language, thereby enhancing the completeness of the text.
This study conducted sequential studies with completeness step by step. First, in the first year, theoretical research and data maintenance were intensively conducted. At this time, the analysis methodology for Korean, not English, will be reviewed and established, and in the data maintenance, the organization-axis data was reviewed, and vocabulary abundance was measured for data in the mother tongue. In the process, various lists will be prepared, and tools necessary for measurement have been developed. In the second year, the measurement of the abundance of texts was conducted for learners' data. Part-of-speech analysis and cross-reference work on the list prepared in the first year are carried out at this stage. And in the second year, the work of processing basic data for the measurement of spoken/written speech began. Lastly, in the 3rd year, the learner's colloquial/written ability was measured based on the results of the 2nd year. As for speaking data, the data of academic and general purpose learners were evenly used. And, together with the result of measuring vocabulary abundance in the second year, the evaluation mechanism for the vocabulary ability of the diagnosed learner was completed.

연구결과보고서

초록
1. 1년차 연구 수행 내용 및 결과(2017. 7. 1. ~ 2018. 6. 30.)
1) 한국어 대상 분석 방법론 검토 및 확립(이론 연구)
1차년도에는 어휘 다양성과 어휘 밀도, 어휘 세련도의 측정에 대한 이론적인 논의에 대해 상세하게 다룬다.
2) 기구축 자료 정비, 모국어 자료로 어휘 ...

1. 1년차 연구 수행 내용 및 결과(2017. 7. 1. ~ 2018. 6. 30.)
1) 한국어 대상 분석 방법론 검토 및 확립(이론 연구)
1차년도에는 어휘 다양성과 어휘 밀도, 어휘 세련도의 측정에 대한 이론적인 논의에 대해 상세하게 다룬다.
2) 기구축 자료 정비, 모국어 자료로 어휘 풍요도 측정
본 연구에서 사용할 문어 말뭉치와 구어 말뭉치는 말뭉치의 대표성과 균형성을 갖추고 있으며 각각 100만 어절로 구성되어 있다.
3) 어휘 풍요도 측정을 위한 도구 개발
텍스트 자료를 품사 주석을 하였어도 간단하게 어휘 풍요도가 구해지는 것은 아니다. 각 샘플에서 이형태 통합을 하여야 하며, 측정치에 영향을 주지 않는 불용어 목록 등도 체크해야 한다. 그리고 다량의 자료를 다루어야 하는 만큼 어휘 다양도와 어휘 밀도, 어휘 세련도의 산출을 손쉽게 할 수 있는 간단한 도구를 개발하여 효율적으로 사용하는 것이 바람직하다. 본 연구에서 개발한 프로그램은 학습자 작문의 형태소 분석 결과를 분석하여 어휘 다양도와 어휘 밀도를 보여주는 도구이다.
2. 2년차 연구 수행 내용 및 결과(2018. 7. 1. ~ 2019. 6. 30.)
1) 학습자 자료의 어휘 풍요도 측정(문어)
2차년도에는 텍스트의 어휘 풍요도 측정을 학습자 자료를 대상으로 진행할 것이다. 문어 자료는 한국어 교육 기관에서 구축한 원시 상태의 말뭉치이고, 구어 자료는 학문목적 학습자와 일반목적 학습자 등 다양한 학습자의 발화 자료이다. 이 자료들은 기본적으로 입력이 되어 있는 상태이나, 품사 분석과 동형어 구분, 오류 분석 등은 이루어지지 않은 상태이다. 따라서 2차년도부터는 말뭉치의 가공 작업과 함께 학습자의 오류 분석 작업을 수행해야 한다. 그러나 학습자의 자료를 가공하는 것은 모국어 화자의 자료보다 매우 힘든 일이다. 본 연구에서는 2차년도에 문어 말뭉치에 대한 가공을 실시하여 풍요도 측정을 완성하고, 구어 자료 구축에 대해서는 3차년도에 진행하도록 계획하였다.
오류 분석은 오류의 유형을 나누지 않고, 오류의 수만을 측정하여 제시하였다. 위의 절차에서 명기한 바와 같이 1차년도에서 마련한 목록에 대한 상호참조 작업을 진행해야 하며, 마지막으로 어휘 풍요도 측정 도구는 1차년도에 모국어 자료를 대상으로 개발한 프로그램을 이용하였다.
2) 사용역 지식(구어성/문어성) 측정을 위한 기본 자료 구축
2차년도에는 사용역 지식, 즉 텍스트의 구어성과 문어성 측정을 위한 기본 자료를 가공하였다. 구어성과 문어성 측정은 말뭉치의 표준이 되고 있는 BNC 말뭉치(British National Corpus)에서 측정한 통계적 기법을 이용하여 진행할 예정이다. 이는 기존의 연구에서도 논의된 바가 있으나, 이 자료는 품사 분석만이 진행된 자료이고 동형어 구분이나 이형태 통합이 이루어지지 않은 자료였다. 보다 정밀한 G2값 측정을 위해서는 동형어 구분이 된 자료를 이용하는 것이 바람직하다.
3) 측정 결과 보고 형식 검토
마지막으로 측정 결과에 대한 보고를 어떤 형식으로 작성할 것인가에 대한 논의가 필요하다. 즉, 학습자의 어휘 지식에서 취약한 부분을 진단하고, 어휘 향상도의 진행 과정을 어떤 방식으로 표현하여 리포트할 것인지에 대한 방법을 마련하였다. 단순히 숫자로만 표현할 것인지, 그래프와 같은 시각적 표현을 덧붙일 것인지 등을 결정하였다.
3. 3년차 연구내용, 방법, 범위(2019. 7. 1. ~ 2020. 6. 30.)
1) 학습자 자료의 어휘 풍요도 측정(구어)
2차년도에 완성된 문어 학습자 자료를 참고하여, 3차년도에는 구어 자료를 가공하였다. 자료의 가공이 끝나면 어휘 풍요도 측정을 진행하였다.
2) 학습자 쓰기, 말하기 산출물의 사용역 지식 측정
3차년도에는 학습자의 사용역 지식(구어성/문어성) 측정이 진행될 것이다. 구어성 또는 문어성 측정은 2차년도에 확보된 구어성/문어성 목록을 등급화하고 이를 실제 학습자의 산출물에 적용하여 쓰기 자료의 구어성과 말하기 자료의 문어성 점수를 측정하는 것이다.
3) 측정 결과 보고 형식의 최종안 작성
학습자의 측정 과정이 모두 종료되었다면, 기본적인 어휘 산출 정보와 함께 이를 평가하여 학습자에게 보고하는 형식을 완성해야 한다. 이는 2차년도에 측정된 3가지 어휘 풍요도 결과와 3차년도에 측정된 사용역 지식에 대한 보고를 의미한다.

연구결과 및 활용방안
1. 연구결과 활용계획

1) 학문적․사회적 기여도
- 제2 언어 능력 시험에 활용할 수 있다. 현재 진행 중인 한국어 능력 시험 출제에 본 연구에서 산출된 여러 목록들이 활용될 수 있다. 각 목록은 빈도와 같은 중요도가 표시되어 있기 때문에 시험 출제에 이용할 때도 이 ...

1. 연구결과 활용계획

1) 학문적․사회적 기여도
- 제2 언어 능력 시험에 활용할 수 있다. 현재 진행 중인 한국어 능력 시험 출제에 본 연구에서 산출된 여러 목록들이 활용될 수 있다. 각 목록은 빈도와 같은 중요도가 표시되어 있기 때문에 시험 출제에 이용할 때도 이 부분이 난이도 산출 자료로 유용하게 쓰일 수 있다.
- 국가 사업으로 진행 중인 한국어 학습자 말뭉치 구축 및 활용 사업 자문에 활용할 수 있다. 현재 국립국어원 중심으로 시작되고 있는 한국어 학습자 말뭉치 구축 사업에 활용 방안의 예를 보임으로써 말뭉치 구축의 방향을 제시할 수 있다.
- 한국어 교육 분야에 새로운 방법론 도입할 수 있다. 기존의 학습자 평가와 교육 관련 논문의 연구 동향을 살펴보면, 자료를 이용하였다 하더라도 대부분 단순 빈도 산출이라는 문제점이 있다. 따라서 양적 연구의 내실화와 방법론의 한계를 보완하려는 노력이 필요한데, 본 연구는 기존의 국어 교육이나 응용언어학에서 이용하고 있는 어휘 계량 방법론을 도입한 획기적인 연구이며, 그 방법론과 결과물이 한국어 교육에서 적극적으로 활용될 수 있을 것이다.
- 어휘 능력 향상을 위한 교수안 작성이 가능하다. 어휘 풍요도 점수와 구어성/문어성 점수를 통해 진단된 학습자의 어휘 능력 측정 결과를 이용하여 효율적인 어휘 교수안을 작성할 수 있다. 이에는 어휘량 증가를 위한 방안과 내용어 전달 능력, 언어 사용역에 맞는 어휘 구사력 등이 포함될 수 있을 것이다.
- 어휘 교육 응용 프로그램 개발을 위한 데이터(소스)를 제공할 수 있다. 현재 웹에서 사용되는 영어의 어휘 교육 프로그램들에는 빈도에 따른 목록을 제시하고 이를 게임으로 풀어가는 도구가 많은데, 한국어를 대상으로 비슷한 프로그램을 개발할 때 본 연구의 데이터가 중요하게 쓰일 수 있을 것이다.
2) 인력양성 방안, 교육·후속 연구와의 연계 활용 방안
- 연구소 대학원생의 지도가 가능하다. 본 연구에서 소개하고 구축한 연구 자료 및 연구 방법론은 관련 연구소의 연구력 향상 및 국어학의 응용언어학 분야인 언어정보학 협동과정 대학원생의 지도에 활용될 수 있다.
- 통계적 연구 방법론의 교육이 가능하다. 본 연구에서 이용한 여러 통계적 기법의 교수가 연구소의 워크샵이나 콜로키움에서 교육된다면, 다른 연구 분야에서도 활용될 수 있을 것이다.
- 자료 구축 및 가공 세미나의 정례화가 가능하다. 언어정보학과 자료 기반 국어학 연구를 하는 대학원생들을 대상으로 정기적으로 세미나를 개최하여 자료 가공 방법 및 주석 방법에 대해 스터디를 진행하고, 분석 결과를 이용하여 다른 논문을 작성할 수 있도록 지도가 가능하다.

2. 연구성과

1) 학술지 논문 발표1
- 2018년 5월, <언어사실과 관점> 44호(399-417쪽)에 “어휘 풍요도 측정을 위한 관용 표현의 빈도와 분포 연구”라는 제목으로 게재되었다.
- 이 논문에서는 본 연구에서 측정한 관용구와 연어의 빈도와 분포를 정리하였고, 이 결과를 문어/구어 사용역과 7개의 문어 텍스트 내의 사용역과, 4개의 구어 텍스트 내에서의 사용역에서의 분포를 살펴보았다.

2) 해외 학술대회 발표
- 1차년도와 2차년도에 연구한 결과는 2019년 8월에 체코 프라하에서 개최된 제14차 코리아학 국제학술토론회에서 “한국어 학습자의 연어 사용 연구 - 모국어 화자와의 비교를 중심으로-”라는 제목으로 발표되었다.
3) 학술지 논문 발표2
- 2020년 5월, <언어사실과 관점> 50호(531-550쪽)에 “한국어 학습자의 연어 사용 연구 -모국어 화자와의 비교를 중심으로-”라는 제목으로 게재되었다.
- 이 연구는 외국어로서의 한국어 학습자들의 연어 사용 양상에 대해 파악해 보고, 모국어 화자의 연어 사용과 비교하는 것을 목표로 하였다.

색인어
말뭉치, 어휘 평가, 어휘 다양도, 어휘 밀도, 사용역, 구어성

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 한국어와문학 > 국어학 > 국어정보학
2순위 : 인문학 > 한국어와문학 > 국어학 > 응용국어학
3순위 : 인문학 > 한국어와문학 > 국어학 > 어휘론(국어학)

연구성과물 목록