연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

텍스트 마이닝을 활용한 일본어능력시험 내용 연구 ― JLPT 1급 문자・어휘를 중심으로―
A Study on the Contents of the Japanese Language Proficiency Test Using Text Mining Analysis - Focusing on JLPT Level 1 Vocabulary-
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 시간강사지원사업 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2019S1A5B5A07110894
선정년도 2019 년
연구기간 1 년 (2019년 12월 01일 ~ 2020년 11월 30일)
연구책임자 이유희
연구수행기관 대전대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 인공시대에 있어서 테크놀로지의 인문학적 활용과 언어 교육 공학 연구의 필요성에 입각하여 본 연구에서는 빅데이터-자연어처리(NLP: Natural Language Processing) 연구에 포커스를 두었다. 본고는 인공지능시대에 있어 빅데이터의 자연어처리를 어떻게 일본어 교육 연구에 활용할 수 있고, 응용 가능한지를 목표로 두고자 한다.
  • 기대효과
  • 본연구의 학문적・교육적 연구효과와 기여도로는 첫째로, 일본어 분석에 있어 지금까지 거의 시도되고 있지 않는 텍스트 마이닝 기법을 활용해 봄으로써 연구의 폭을 확대하고, 키워드 도출과 전체별, 파트별, 형태소별 및 시각화 분석을 통해 보다 새로운 결과를 창출하는데 본 연구가 일조 할 수 있을 것으로 기대된다. 둘째로, 비교적 정확한 데이터 결과 및 시각적 자료를 제시함으로써 일본어 학습자들의 시험대비와 현 교육기관에서 보다 효과적이고 객관적인 티칭 자료로 활용될 수 있을 것으로 기대를 할 수 있다. 셋째로, 본 연구 결과를 바탕으로 레벨별・분야별 디지털 교재를 제작하여 향후의 디지털 시대의 학습자들을 위한 교육 자료로 배포, 활용 할 수 있을 것으로 기대한다.
  • 연구요약
  • 본 연구의 목적은 첫째, 텍스트 마이닝 분석을 활용하여 개정이전과 이후의 JLPT 1급의 기출 문자・어휘 전체를 대상으로 빈출 키워드를 추출하여 시험 문제의 패턴과 경향을 분석한다. 둘째, 문제1부터 5까지 주요 상위 빈출 핵심어를 추출하여 각 파트별로 주요 키워드를 알아보고, 이에 대한 결과를 시각적으로 파악해 보도록 하겠다. 셋째, 전체 기출 문자・어휘를 형태소 분류하고, 품사별 빈도수 및 빈도 비율을 측정하여 효과적인 교육 및 학습 방법을 제시하도록 하겠다.
    연구 방법으로는 수치 데이터 이외의 비정형 데이터(텍스트, 영상, 이미지, 소리 등)를 분석하는 텍스트 마이닝 분석방법을 활용한다. 단계별로는 데이터 수집, 전처리, 텍스트분석-빈도분석・형태소 분석, 결과해석 등 4단계로 설정한다. 키워드 빈도수 및 형태소, 시각화 분석을 위해 Python3.7 프로그램과 Jupiter Notebook 도구, 일본어 분석툴・라이브러리 Janome(Mecab), 그리고 시각화 프로그램・Word Cloud를 활용한다.
    이러한 분석 방법을 활용하여 연구내용으로는 첫째로, 개정이전(2000년~2009년)과 이후(2010년~2018년)의 1급 기출문제 28회의 전체 기출 문자・어휘를 대상으로 출현 빈도가 가장 높은 핵심 키워드를 Python으로 추출하여 표로 분류하고, 중복 출현 횟수를 분석한다. 핵심어를 간단히 편리하게 알아 볼 수 있도록 Word Cloud로 시각해 보기로 한다. 둘째로, 문제1~5까지 파트별로 가장 많이 출현한 키워드를 추출해 보고, Word Cloud로 시각화 하여 결과 내용을 고찰한다. 셋째로, 전체 문자・어휘를 형태소를 세분화하여 품사별로 추출 하여, 문제패턴과 경향, 교육방법 등을 제시한다.
결과보고시 연구요약문
  • 국문
  • 본 연구에서는 Python3.8 프로그램, Jupyter Notebook 툴, Janome 형태소 분석 엔진 등을 이용하여 인공지능의 자연어처리 기술을 바탕으로 한 텍스트마이닝 분석을 실시하였다. 지금까지 시도되지 않은 개정 이전과 이후의 N1 기출 문자・어휘를 대상으로 전체별・파트별 키워드 및 형태소를 추출하고, 문제패턴과 트렌드를 밝혔다. 이하 결과는 다음과 같다.
    (1) 1990년-2019년까지 30년간 40회분의 기출어를 추출해 본 결과, 총 1704개의 단어 중, 재출현(2-4회) 핵심어는 217개, 재출현 비율은 약 13%로 나타났다. (2) 개정 이후에서는 32개의 재출현 핵심어(2-3회)가 등장하였다.
    (3) N1에 있어서는 2회 이상 출현 된 핵심어의 특성 및 경향은 문제3 유의어 선택 파트에서 중점적으로 나타나고 있다. 풍부한 어휘력 확보를 위해 3-4개 콜로케이션 패턴(1,2급연계)의 프레젠테이션 교수법이 효과적이라 할 수 있을 것이다.
    (4) ‘읽기’와 ‘정확한 의미 파악’을 중시하는 ‘怠る’, ‘覆す’, ‘練る’와 같은 ‘이음이의어’와 ‘동음이의어’ 동사가 핵심 문제로 등장한다는 점이다. (5) ‘張り合う=競い合う=競争する=争う=競う’와 같이 2급-1급의 연어・이음동의어의 패턴 형태, (6) ‘음・훈독(重箱読み․湯桶読み)・숙자훈 명사와 ‘配’, ‘発’
    와 같은 한자 명사 읽기 문제’의 빈출 형태가 나타나고 있는데, 이러한 특성을 전제로 학습 포인트를 두는 것이 바람직하다 할 수 있다.
    (7) 품사별 빈도와 학습에 있어서는 1)명사-동사-형용동사(전체 80.7%), 2)부사-형용사-외래어(전체 18.3%)의 ‘2가지 카테고리’를 중심으로 중요성이 가장 높은 부분부터 진행해 가는 것을 제안해 볼 수 있다. 이러한 인공지능적 방법론을 바탕으로 출현 키워드 및 품사, 문제의 특성과 경향을 파악하고, 정보 예측 및 콜로케이션․연관어 학습 방법을 통해 학습효과와 능률을 향상시킬 수 있을 것으로 판단된다.
  • 영문
  • The aims of this study are to (i) extract keywords of the JLPT Level 1 test characters and vocabulary (1990-2019, 40 times), and (ii) analyze morpheme and exam patterns and trends by utilizing Python3.8 program, based on text mining technic.
    A total of 1704 words were extracted before and after the revision, of which 217 keywords were reappeared, and the reappearance rate was about 13%. After the revision, 32 reappearance keywords appeared(2-3 times). As a result, in the JLPT level 1, characteristics and trends such as (1) collocations in span of three to five (level 1,2), (2) 217 patterned reappearance keywords with high probability of reappearance (before and after revision) and 32 keywords (after revision), (3) heteronym/homonym/synonym verbs, (4) Kanji nouns of the onyomi and kunyomi(jubako yomi/yutoyomi)/the Japanese reading of the Chinese character are emerging.
연구결과보고서
  • 초록
  • 본 연구에서는 Python3.8 프로그램, Jupyter Notebook 툴, Janome 형태소 분석 엔진 등을 이용하여 인공지능의 자연어처리 기술을 바탕으로 한 텍스트마이닝 분석을 실시하였다. 지금까지 시도되지 않은 개정 이전과 이후의 N1 기출 문자․어휘를 대상으로 전체별․파트별 키워드 및 형태소를 추출하고, 문제패턴과 트렌드를 밝혔다. 이하 결과는 다음과 같다.
    첫째, 1990년-2019년까지 30년간 40회분의 기출어를 추출해 본 결과, 총 1704개의 단어 중, 재출현(2-4회) 핵심어는 217개, 재출현 비율은 약 13%로 나타났다. 둘째, 개정 이후에서는 32개의 재출현 핵심어(2-3회)가 등장하였다.
    셋째, N1에 있어서는 2회 이상 출현 된 핵심어의 특성 및 경향은 문제3 유의어 선택 파트에서 중점적으로 나타나고 있다. 풍부한 어휘력 확보를 위해 3-4개 콜로케이션 패턴(1,2급연계)의 프레젠테이션 교수법이 효과적이라 할 수 있을 것이다.
    넷째, ‘읽기’와 ‘정확한 의미 파악’을 중시하는 ‘怠る’, ‘覆す’, ‘練る’와 같은 ‘이음이의어’와 ‘동음이의어’ 동사가 핵심 문제로 등장한다는 점이다. 다섯째, ‘張り合う=競い合う=競争する=争う=競う’와 같이 2급-1급의 연어・이음동의어의 패턴 형태가 출현하고, 여섯째, ‘음・훈독(重箱読み․湯桶読み)・숙자훈 명사’와 ‘配’, ‘発’와 같은 한자 명사 읽기 문제’의 빈출 형태가 나타나고 있는데, 이러한 특성을 전제로 학습 포인트를 두는 것이 바람직하다 할 수 있다.
    일곱째, 품사별 빈도와 학습에 있어서는 1)명사-동사-형용동사(전체 80.7%), 2)부사-형용사-외래어(전체 18.3%)의 ‘2가지 카테고리’를 중심으로 중요성이 가장 높은 부분부터 진행해 가는 것을 제안해 볼 수 있다. 이러한 인공지능적 방법론을 바탕으로 출현 키워드 및 품사, 문제의 특성과 경향을 파악하고, 정보 예측 및 콜로케이션・연관어 학습 방법을 통해 학습효과와 능률을 향상시킬 수 있을 것으로 판단된다.
  • 연구결과 및 활용방안
  • 1. 연구결과
    (1) 1990년-2019년까지 30년간 40회분의 기출어를 추출해 본 결과, 총 1704개의 단어 중, 재출현(2-4회) 핵심어는 217개, 재출현 비율은 약 13%로 나타났다. (2) 개정 이후에서는 32개의 재출현 핵심어(2-3회)가 등장하였고, (3) 2회 이상 출현 된 핵심어의 특성 및 경향은 문제3 유의어 선택 파트에서 중점적으로 나타나고 있다. 풍부한 어휘력 확보를 위해 3-4개 콜로케이션 패턴(1,2급연계)의 프레젠테이션 교수법이 효과적이라 할 수 있을 것이다. 그리고 (4) ‘읽기’와 ‘정확한 의미 파악’을 ‘이음이의어’와 ‘동음이의어’ 동사가 핵심 문제로 등장한다는 점, (5) 2급-1급의 연어・이음동의어의 패턴 형태, (6) ‘음・훈독(重箱読み․湯桶読み)・숙자훈 명사’의 빈출 형태가 나타나고 있는데, 이러한 특성을 전제로 학습 포인트를 두는 것이 효과적이다.
    (7) 품사별 빈도와 학습에 있어서는 1)명사-동사-형용동사(전체 80.7%), 2)부사-형용사-외래어(전체 18.3%)의 ‘2가지 카테고리’를 중심으로 중요성이 가장 높은 부분부터 진행해 가는 것을 제안해 볼 수 있다. 이러한 인공지능적 방법론을 바탕으로 출현 키워드 및 품사, 문제의 특성과 경향을 파악하고, 정보 예측 및 콜로케이션・연관어 학습 방법을 통해 학습효과와 능률을 향상시킬 수 있을 것으로 판단된다.

    2. 연구결과 활용계획
    2.1 후속연구와의 연계
    텍스트 마이닝은 다량의 데이터를 이용하여 키워드 추출과 패턴 파악을 통해 미래 예측을 가능케 하는 강점이 있다. 향후에는 2급의 개정이전과 이후의 문자어휘 내용을 다루어 보겠다. 또 텍스트 마이닝 분석에 훨씬 더 효과적이며 많은 양을 다룰 수 있는 1, 2, 3급의 독해파트 분석 연구를 단계적으로 시도하고, 점차적으로 확장해 나가는 방법을 통해 지금까지 파악되지 못했던 결과를 밝히고, 미래예측을 시도해 보도록 하겠다.
    2.2 수업 자료 활용
    현재 기업의 개발 분야에 있어서는 이공계 출신의 개발자뿐만 아니라 자연어 처리 능력을 겸비한 언어학자에게도 개방되고 있다. 한국의 언어대학(원)에서는 AI 등장으로 인한 패러다임의 변화 속에서 언어 데이터 분석 및 통계, 자연어 처리, 인공신경망 기계번역 등 ICT교육 과목이 편성되고 있다. AI 시대에 있어 문화이해 능력과 기계 활용능력, 언어 능력 등의 능력을 겸비할 수 있는 융복합 전문가 양성에 초점을 맞춘 멀티 교육이 실시되고 있는데, 이러한 수업에 있어서 본고는 첫째로, ICT교육 및 교과목 등에서 융합교육의 선행자료의 표본으로 제시가 가능할 것이다. 둘째로, 본고에서 수집한 데이터의 Python 분석 내용과 분석표, 시각화 자료 등의 연구 방법 및 결과를 일본어 시험 과목에서 실질적인 강의 자료로 활용할 예정이다. 셋째로, 아카이빙을 통해 교육적 자료로 확산, 배포하여 이공계 및 인문학-일본어 수업에 있어서 언어 공학 교육의 연계 효과를 한층 제고 해 갈 계획이다. 넷째, 본 연구의 디지털화를 모색하고, 추후 후속연구를 완성하여 교육자 및 학습자들에게 이러닝교재로 활용됨으로써 비용 절감과 자기주도 학습, 정보・자원 공유, 맞춤형 학습의 용이성・편리성 등을 제공할 계획이다.
    2.3 언어 공학 교육 및 교재 개발 공동 연구
    4차 혁명시대에 있어 빅데이터 과학자의 부족과 양성은 각국의 중요한 이슈가 되고 있다. 이러한 가운데, 일본 등 해외에서는 언어교육학자와 공학자 간의 공동연구가 추진되고, 프로그램이 개발되고 있다. 본 연구에서는 인문과 이공계간의 융합연구를 시도하고 있는데, 향후에는 국내뿐만 아니라 가입한 해외-일본 학회에서 후속연구 발표를 실시할 계획이다. 또 국제 레벨의 공동 협력 연구로 발전시켜 나갈 수 있도록 일본 정부의 공동연구지원 기금의 언어 공학 파트 분야에 지원을 시도할 계획이다.
    한편 미국, 일본, 한국 등에서는 2011년부터 초중고 디지털 교과서 정책 전환을 표방해 왔다. 일본의 경우 전국적으로 52.6%가 디지털 교과서를 사용하고 있는데, 이러한 디지털 교과서는 전 세계적으로 더욱 확대될 것으로 예측된다. 상기에서 언급하였듯이 국내외 연구 발표를 통해 공동연구 협력을 구축하고, 단계적으로 언어능력 시험의 교재개발-디지털 교과서 공동 제작과 보급에 대처해 나갈 수 있을 것이다.
  • 색인어
  • 텍스트마이닝, 자연어처리, 일본어능력시험1급, 빈도수, 형태소
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력