Search
Search

연구성과물 검색 타이틀 이미지

HOME ICON HOME > Search by Achievements Type > Reports View

Reports Detailed Information

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10006135&local_id=10013114
외국어로서의 한국어 음성 코퍼스 구축과 이를 통한 외국인의 한국어 음성 음운 체계 습득 양상 연구
Reports NRF is supported by Research Projects( 외국어로서의 한국어 음성 코퍼스 구축과 이를 통한 외국인의 한국어 음성 음운 체계 습득 양상 연구 | 2004 Year | 이석재(연세대학교) ) data is submitted to the NRF Project Results
Researcher who has been awarded a research grant by Humanities and Social Studies Support Program of NRF has to submit an end product within 6 months(* depend on the form of business)
사업별 신청요강보기
  • Researchers have entered the information directly to the NRF of Korea research support system
Project Number AS0056
Year(selected) 2004 Year
the present condition of Project 종료
State of proposition 재단승인
Completion Date 2007년 02월 22일
Year type 결과보고
Year(final report) 2007년
Research Summary
  • Korean
  • 본 연구에서는 외국인 한국어 학습자의 한국어 발화 목록을 설계, 실제 디지털형식으로 녹음 가공한 대용량 음성코퍼스를 구축하여, 연구의 바탕이 되는 기초 자료를 창출하며(「외국어로서의 한국어 음성코퍼스」=「L2KSC」 즉, L2 Korean Speech Corpus), L2 한국어의 음성ㆍ음운 체계가 외국인에게 습득되는 양상을 조사하여 언어간 간섭에 따른 인간의 말소리 습득 특징과 그 양상에 관한 음성ㆍ음운론적 지식 생산을 목적으로 삼는다.
    음성 코퍼스 L2KSC의 구축은 음성 자료 수집의 전 단계로서 외국인들이 발화하게 될 발화 목록을 준비하는 단계인 L2KSC 설계를 거쳐, 녹음과 녹음 후 처리 과정을 거쳐 이루어진다. 발화 목록은 6개의 세트로 구성되어 있으며, 각 세트는 1) 발화자 모국어 자모음 읽기, 2) 한국어 무의미 어휘 읽기, 3) 한국어 공통 어휘 읽기, 4) 한국어 대화, 5) 한국어 단문(바람과 햇님), 6) 자유발화로 이루어져 있다. L2KSC 구축 단계에서는 녹음이 완료된 것을 어휘 별 혹은 문장별로 슬라이싱(slicing)하여 파일화하고, 체계적인 디렉터리 구조를 구축하며, 여기에 모든 발화자 외국인의 부가 정보(모국어, L2 한국어 학습수준, L2 한국어 학습시간, 연령, 출신국가와 특정 지역, 교육 정도)를 부여한다.
    L2KSC의 구축과정이 완료된 후에는 음성 자료를 바탕으로 한국어 대 타 언어(발화자들의 각 모국어)의 다중 언어 대조 언어학적 연구를 수행하였다. 외국인의 한국어 음성·음운 체계 습득 양상 연구를 위한 사전 작업의 일환으로 외국인 화자의 한국어 발화 오류를 음소 차원에서 기술, 분석하였다. 이는 외국인 화자의 한국어 발화 오류가 분절음의 대체 현상 외에도 한국어 음운 규칙을 제대로 적용하지 못했거나, 억양과 같은 요소가 제대로 학습되지 못한 데에서 야기된 것으로 판단했기 때문이다. 다음 단계에서는 음성ㆍ음운의 과학적 대조 연구를 위해 L2KSC의 음성 파일을 대상으로 자음·모음·억양 일반에 걸친 음성·음향학적 연구를 진행하였다. 자음, 모음, 억양 등 음성학 일반에 걸쳐 주요한 음향학적 패러미터 및 외국인의 한국어 발화에서의 관찰 대상을 선정하여 디지털화된 음성 파일의 파형(waveform)이나 스펙트로그램(spectrogram)을 대상으로 분석하였다.
    본 연구에서 얻게 될 외국어로서의 한국어 음성코퍼스와 음성ㆍ음운 체계 습득 과정에 대한 연구 결과는 다음과 같은 여러 가지 분야에서 활용될 수 있을 것이다. 먼저 1)교육적 방면에서는 모국어의 특성이 고려된 L2 음성코퍼스를 통해 한국어 음성ㆍ음운 체계의 특징을 객관화 시킬 수 있으며, 2)연구 결과물은 음성, 언어 및 각종 사전 데이터베이스 등 양질의 한국어 교육 자료의 응용으로 확대시킴으로써 한국어 교육을 한 단계 높은 수준으로 향상시킬 수 있다. 3) 학문적으로 볼 때 가시적이면서도 신뢰할 수 있는 음성데이터 자료에 토대하여 음성ㆍ음운 분야의 비교 ·대조 연구를 할 수 있으므로, 음성ㆍ음운 시스템에 관한 언어 연구의 위상을 높이고 새로운 지식을 창조할 수 있다. 4) 기술적 방면에서는 음성정보기술개발을 체계적으로 지원할 수 있다는 점을 꼽을 수 있을 것이다. 5) 마지막으로 사회적인 측면에서는 표준적인 외국어로서의 한국어 음성코퍼스를 구축함으로써 그 동안 영어권에 편중되었던 한국어 교육에서 벗어나 각 나라별로 맞춤교육이 될 수 있으므로 한국어를 보다 널리 보급시킬 수 있을 것이다.
  • English
  • The purposes of this study are to construct a high-capacity speech corpus that is recorded and processed in digital form(the creation of the L2 Korean Speech Corpus, L2KSC) and to produce phoneticㆍphonological knowledge regarding the characteristics and aspects of human speech acquisition according to language interference.
    The construction of the speech corpus L2KSC started with the L2KSC design stage in which the speech list for non-native L2 Korean learners was created. The speech list consists of 6 sets: 1) the consonants and vowels of the reader's native language, 2) Korean non-sense words, 3) Korean words, 4) Korean dialogues, 5) a Korean short story (The Wind and the Sun), 6) free speech. In the stage of post-recording, the recorded data are sliced into separate words or sentences and saved in the form of sound files. L2KSC has a systematic directory containing supplementary information(native language, level of L2 Korean, period L2 Korean acquisition, age, native country, and educational level) of all the foreign readers.
    A contrastive linguistic study on Korean and other languages(the L2KSC readers' native language) was carried out based on the construction of L2KSC. As part of the preliminary task for this study of foreigners' acquisitional aspects of the Korean phonetic·phonological system, the Korean speech errors made by non-native readers were phonemically analyzed and explained. This task was executed because the non-native readers' Korean speech errors were judged to have occurred due to inaccurate application of Korean phonological rules or insufficient acquisition of Korean intonation patterns, in addition to segmental errors. Afterwards, in order to investigate the phonetic·phonological contrasts by a scientific and statistic approach, a phonetic·acoustic study on consonants, vowels, and intonation was carried out with the speech files of L2KSC. The waveforms and spectrograms of the digitalized speech files were analyzed by several main acoustic parameters such as vowel length, formants, intonational patterns, aspiration of stop sounds and so on.
    The results of this study on the speech corpus of Korean as a foreign language and the acquisition procedure of the Korean phonetic·phonological system can be practically used in the following ways: 1) for educational purposes, the characteristics of the Korean phonetic·phonological system can be objectified through the L2 speech corpus that has taken the features of the readers' native language into account; 2) the results of this study can be applied to the database of speech, language and dictionary, which will improve education of the Korean language to non-native learners; 3) academically, with viable speech data, this study can generate new knowledge and enhance the status of linguistic studies on phonetic·phonological systems; 4) technically, the results of this study can systematically support the development of speech information technology; and 5) socially, with the speech corpus of Korean as a foreign language, the Korean language will be more widely diffused; moreover, the education of the Korean language will overcome the absolute emphasis on English-native Korean learners and provide Korean language education adjusted to the linguistic features of various countries.
Research result report
  • Abstract
  • 본 연구에서는 지금까지 국내외에서 구축되지 않은 외국인 한국어 학습자의 한국어 발화 목록을 설계, 실제 디지털형식으로 녹음 가공한 대용량 음성코퍼스의 구축, 즉 연구의 바탕이 되는 기초 자료를 창출하며(「외국어로서의 한국어 음성코퍼스」=「L2KSC」 즉, L2 Korean Speech Corpus), L2 한국어의 음성ㆍ음운 체계가 외국인에게 습득되는 양상을 조사하여 언어간 간섭에 따른 인간의 말소리 습득 특징과 그 양상에 관한 음성ㆍ음운론적 지식 생산을 목적으로 삼는다.
    1차 연구년도에는 음성 코퍼스 L2KSC의 구축이 이루어졌으며, 그 과정은 다음과 같다. 먼저, 음성 자료 수집의 전 단계로서 외국인들이 발화하게 될 발화 목록을 준비하는 단계인 L2KSC 설계를 거쳐, 녹음과 L2KSC 구축의 단계에 이른다. 발화 목록에는 1) 발화자 모국어 자모음 읽기, 2) 한국어 무의미 어휘 읽기, 3) 한국어 공통 어휘 읽기, 4) 한국어 대화, 5) 한국어 단문(바람과 햇님), 6) 자유발화 가 포함되어 있으며, 이들 목록은 한국어의 음성․음운적 특징은 물론 외국인의 한국어 오류 유형들을 고려하여 설계된 것이다. L2KSC 구축 단계에서는 녹음이 완료된 것을 슬라이싱(slicing)하여 파일화하고, 체계적인 디렉터리 구조를 구축하며, 여기에 모든 발화자 외국인의 부가 정보(모국어, L2 한국어 학습수준, L2 한국어 학습시간, 연령, 출신국가와 특정 지역, 교육 정도)를 부여한다.
    2차 연구년도에는 1차 연구년도에 구축된 음성 자료를 바탕으로 한국어 대 타 언어(발화자들의 각 모국어)의 다중 언어 대조 언어학적 연구를 시도하였다. 대조 비교 분석(Contrastive Analysis)에서 주장한 대로 외국어 학습 시 나타난 오류의 상당수는 모국어(L1)의 음운 체계가 목표 언어(L2)의 음운 체계에 작용한 간섭(interference)에 기인한 것이므로, 광의의 음운 체계에 대한 대조 분석을 바탕으로 L2 한국어 학습에 있어 외국인에 의한 L2 한국어 소리 체계 습득 양상을 집중 연구하였으며, 그 과정은 다음과 같다. 먼저, 외국인의 한국어 음성•음운 체계 습득 양상 연구를 위한 사전 작업의 일환으로 외국인 화자의 한국어 발화 오류를 음소 차원에서 기술, 분석하였다. 이는 외국인 화자의 한국어 발화 오류가 분절음의 대체 현상 외에도 한국어 음운 규칙을 제대로 적용하지 못했거나, 억양과 같은 초분절적 요소가 제대로 학습되지 못한 데에서 야기된 것으로 판단했기 때문이다. 다음 단계에서는 음성ㆍ음운의 과학적 대조 연구를 위해 L2KSC의 음성 파일을 대상으로 자음•모음•억양 일반에 걸친 음성•음향학적 연구를 진행하였다. 본 연구에서는 자음, 모음, 억양 등 음성학 일반에 걸쳐 주요한 음향학적 패러미터 및 외국인의 한국어 발화에서의 관찰 대상을 선정하여 디지털화된 음성 파일의 파형(waveform)이나 스펙트로그램(spectrogram)을 대상으로 분석하였다. 미국과 중국에서 현지 녹음을 실시하여 구축된 L2KSC의 전체 화자들을 대상으로 하여 분석대상 화자와 대상 어휘 및 문장을 선정하였다. 현지 녹음의 목적은 외국 각 현지에서의 한국어 교육을 받은 외국인 학습자와 국내에서 학습 받은 외국인 학습자의 비교 연구를 통해 교실 외적 학습 환경의 중요도를 파악하기 위함이었다.
    본 연구에서 얻게 될 외국어로서의 한국어 음성코퍼스와 음성ㆍ음운 체계 습득 과정에 대한 연구 결과는 다음과 같은 여러 가지 분야에서 활용될 수 있을 것이다. 먼저 1)교육적 방면에서는 모국어의 특성이 고려된 L2 음성코퍼스를 통해 한국어 음성ㆍ음운 체계의 특징을 객관화 시킬 수 있으며, 2)연구 결과물은 음성, 언어 및 각종 사전 데이터베이스 등 양질의 한국어 교육 자료의 응용으로 확대시킴으로써 한국어 교육을 한 단계 높은 수준으로 향상시킬 수 있다. 3) 학문적으로 볼 때 가시적이면서도 신뢰할 수 있는 음성데이터 자료에 토대하여 음성ㆍ음운 분야의 비교 •대조 연구를 할 수 있으므로, 음성ㆍ음운 시스템에 관한 언어 연구의 위상을 높이고 새로운 지식을 창조할 수 있다. 4) 기술적 방면에서는 음성정보기술개발을 체계적으로 지원할 수 있다는 점을 꼽을 수 있을 것이다. 최근 컴퓨터와 인간간의 대화 수단으로 음성을 활용하는 기술인 음성정보기술의 연구가 활발하고 이에 필요한 잘 정비된 음성코퍼스는 필수적인 요소이다. 여기에 본 연구에 의해 구축되는 음성코퍼스 L2KSC를 통한 언어학적 지식 축척은 언어 연구의 활용성 확대에 일조할 것이다. 5) 마지막으로 사회적인 측면에서는 표준적인 외국어로서의 한국어 음성코퍼스를 구축함으로써 그 동안 영어권에 편중되었던 한국어 교육에서 벗어나 각 나라별로 맞춤교육이 될 수 있으므로 한국어를 보다 널리 보급시킬 수 있을 것이다.
  • Research result and Utilization method
  • 1. 연구 결과
    1.1. 1차년도 연구결과
    ‣ 연구의 내용은 연구 2년 동안, 1) 녹음 전 설계 단계, 2) 녹음 단계, 3) 녹음 후 처리 단계, 4) 자료의 가공 및 체계화 단계, 5) 한국어 대 타 언어(발화자들의 각 모국어)의 다중 언어 대조언어학적 연구 단계로 5분 되며, 1차 년도 연구의 초점은 발화 목록의 설계 및 녹음에 있다.
    1.1.1 녹음 발화 목록 설계
    ‣ 녹음 발화 목록 설계는 다음의 원칙에 입각하여 설계되었다.
    a. 정형 음성코퍼스 b. 독립어 어휘음성과 연속음성 (문장 및 이야기) 복합 음성코퍼스 c. 낭독체와 대화체의 복합 음성코퍼스 d. 다중 언어 음성코퍼스 e. 다중 병렬 음성코퍼스 f. 분석용 음성코퍼스: PBW와 PBS
    ‣ 외국인 화자들의 한국어에 대한 오류 양상과 한국어의 음성․음운적 특징에 대한 분석 및 각 화자의 모국어의 특징을 분석하여 목록을 설계하였다.
    1.1.2. 녹음 단계(국내 녹음 및 국외 녹음)
    1.1.2.1. 발화 외국인 및 한국어 모국어 화자 구성
    ‣ 국내․외의 한국어 학습자 예정 발화자 구성 및 인원수: 영어권 58명, 일본어권 41명, 중국어권 43명, 기타 25개 언어 100명, 한국인 화자 50명, 국외녹음(영어) 26명, 국외녹음 중국어 38명 이상 총 365명
    1.1.2.2. 녹음 방법
    ‣ 국내녹음은 연세대학교 언어연구교육원 녹음실(방음부스)에서 녹음을 완료되었고, 국외 녹음은 2005년 7월(영어권)과 2006년 6월(중국어권)에 각각 실시하였다.
    1.1.2.3. 녹음 후 처리 단계
    ‣ 우선 녹음 후 처리 작업은 DAT에 녹음된 것을 16kHz, 16bit로 PC파일(raw형식)화 하고, 이를 슬라이싱(slicing) 툴을 사용하여 파일화 하였다. 여기에 모든 발화자 외국인의 부가 정보(모국어, L2 한국어 학습수준, L2 한국어 학습시간, 연령, 출신국가와 특정 지역, 교육 정도)를 부여하였다.
    2. 2차년도 연구결과
    ‣ 2차 연구년도의 본 연구의 핵심은 1차 연구년에 구축된 코퍼스의 음성 파일을 대상으로 다중 언어 대조언어학적 연구이다. 연구방법으로 음소 오류 분석과 음향․음성학적 분석을 사용하였다.
    2.1. 음소오류분석
    o 음소차원 오류 분석의 대상: 발화목록(첨부자료#2)의 Set #2, Set #3, Set #4, Set #5 의 분절음 및 한국어 음운 현상 오류분석
    o 국립국어연구원의 표준발음 기준하여 전사
    o SPSS와 엑셀 활용한 오류 발화에 관한 통계작업
    2.2 음성․음향학적 분석
    ‣ 대조 분석의 기초로서 자음, 모음, 억양 등 음성학 일반에 걸쳐 주요한 음향학적 패러미터 및 외국인의 한국어 발화에서의 관찰 대상을 선정하여 디지털화된 음성 파일의 파형(waveform)이나 스펙트로그램(spectrogram)을 대상으로 분석하였다.
    ‣ 기초 연구: 음성․음향학적 분석 과정의 기초 연구 과정으로서 본 연구팀은 팀별(자음/모음/억양)로 리서치를 선행하였다. 선행 리서치는 코퍼스에 포함된 주요 언어의 음성․음향학적 특징과 한국어의 음특징의 비교 분석에 초점이 두어졌으며, 이를 기초로 음성 분석의 주요 패러미터를 선정하였다. 또한 추후 얻어질 분석 데이터들은 통계적 해석이 필수적이므로 음성학적 기초 연구에 덧붙여 음성분석에 요구되는 통계의 기초를 연구하였다.
    ‣ 음성 분석: 대상화자와 어휘를 선정하여 마찰음, 파찰음 등의 기식, 마찰 구간, 단모음과 이중모음의 포만트와 길이, 억양 등을 분석하였다. 분석은 Praat 등의 소프트웨어와 K-ToBI Conventions 및 각 팀에서 선행 연구를 통해 모은 측정 매뉴얼에 기초하여 이루어졌다.
    3. 연구결과의 활용방안
    ‣ 본 연구는 다중 언어간 특수 음성코퍼스 구축의 모델을 제시하며, 언어간 비교(comparative) 음성ㆍ음운론 연구 및 언어 습득, 언어음에 대한 지식 활용 방안의 확대에 기여할 것이다.
    ‣ 국내 및 국외 비교 녹음을 통하여 외국어로서의 한국어교육에 있어 교실 외적 언어 환경이 언어 습득에 미치는 영향 정도를 밝힐 수 있다.
    ‣ 한국어를 학습 중인 외국인에게 그들의 (오류) 발화 및 그 오류의 음성ㆍ음운적 원인을 설명할 수 있고, 한국어 교육 교수진에게는 학습자의 특성(모국어, 학습정도 등)에 적합한 맞춤 교육식 발음 교육을 시킬 수 있는 기반을 제시할 수 있다.
    ‣ 구축된 L2KSC는 음성인식기술을 이용한 음성정보기술(SIT, Speech Information Technology) 분야에서 이를 이용한 한국어 발음 교육 S/W 개발에 필수적인 것이므로, 국내의 음성정보기술의 발달 및 응용성 확대에도 긴요하게 이용될 수 있다.
    ‣ 학제 내외적 시너지효과를 창출할 것을 기대하며, 학문 분야간 균형적 발전을 꾀할 것으로 기대한다.
  • Index terms
  • 음성코퍼스, L2KSC, 한국어교육, 음성학, 언어학, 대조언어학적분석, 음소오류분석, 음향음성학적분석, 한국어 음성음운체계습득, 분절음, 초분절적 요소
  • List of digital content of this reports
데이터를 로딩중 입니다.
  • This document, it is necessary to display the original author and you do not have permission
    to use copyrighted material for-profit
  • In addition , it does not allow the change or secondary writings of work
데이터 이용 만족도
자료이용후 의견
입력
트위터 페이스북
NRF Daejeon
(34113) 201, Gajeong-ro, Yuseong-gu, Daejeon, Korea
Tel: 82-42-869-6114 / Fax: 82-42-869-6777
NRF Seoul
(06792) 25, Heonreung-ro, Seocho-gu, Seoul, Korea
Tel: 82-2-3460-5500 / Fax: 82-2-3460-5759
KRM Help Center
Tel : 042-869-6086 Fax : 042-869-6580
E-mail : krmcenter@nrf.re.kr