연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

중국어 음성 데이터베이스 구축 및 중국어 회화능력 자동평가 시스템 연구
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 기초연구지원인문사회& #40;창의주제연구& #41; [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2008-321-A00105
선정년도 2008 년
연구기간 3 년 (2008년 07월 01일 ~ 2011년 06월 30일)
연구책임자 성윤숙
연구수행기관 위덕대학교
과제진행현황 종료
공동연구원 현황 고미숙(제주대학교)
이우철(경북대학교)
김병창(대구가톨릭대학교)
과제신청시 연구개요
  • 연구목표
  • 1.1 연구 필요성
    본 연구는 청취 능력 평가와 발화 음성의 정확도, 유창성, 합문법성 등의 평가를 웹상에서 자동 평가하여 기존의 회화능력 평가에 있어서 면대면 평가의 주관적 오류 등의 한계성을 극복하고, 제한된 시간에 다수의 응시자의 중국어 회화 능력을 객관적으로 평가할 수 있는 언어시스템을 구축하는 시대적 수요에 따른 필요성에서 출발한다.

    1.2 연구 주제의 독창성
    본 연구는 한국인의 중국어 회화 능력을 자동으로 평가하는 시스템을 구축하기 위한 언어학 및 언어 공학적 지식에 대한 최초의 연구이다.

    1.3 선행연구와의 비교
    시공간적 제약과 면대면 회화 평가의 기술적 제반 요건이 날로 개선 발전하고 있지만, 면대면 평가가 태생적으로 지니는 시공간적 한계성이나 주관적 오류의 한계성을 극복하고 보다 정확한 대량 평가를 위해서는 디지털 방식의 객관적 자동 평가 방식이 필요하다.
    본 연구는 음성 오류를 학습 단계별, 착오 유형별 관점에서 출발하여 완전무결한 음성 코퍼스에서 부터 초보 수준의 중국어 학습자의 음성까지 다양하고 체계적인 종합 평가 데이터베이스를 구축하여 응답자의 질의에 대한 반응이 평가 데이터베이스의 어떤 부류에 속하는지의 판단에 따른 자동 평가 시스템을 구축하고자 한다.
    화자 음성의 개인적인 특성은 크게 음향학적 요소와 운율적인 요소로 나누어진다. 음향학적인 요소는 포먼트 주파수(Frequency), 포먼트 대역폭(Bandwidth), 스펙트럼 기울기(Spectrum Tilt)와 성문 파형(Glottal Waveform) 등이 있으며 운율적 요소는 주기(Pitch), 발성 지속시간(Duration) 등이 있다.
    질의에 반응하는 응답자의 이러한 음성 자질들이 평가데이터베이스에 구축된 다양한 평가 코퍼스 ‘코퍼스’(corpus)는 ‘데이터베이스’(database)와 같은 의미로 사용되기도 하지만, 데이터베이스가 데이터의 세부까지 논리구조가 결정된 자료의 집합을 지시하는데 반해, 코퍼스는 데이터의 세부까지 논리구조가 결정되지 않은 자료의 집합으로 정의된다.
    의 어느 부류의 특질과 가장 유사한가를 판단함으로써 화자의 중국어 회화 능력을 기계적으로 자동 평가하려는 시스템을 연구하고자 한다.
    본 연구는 이러한 언어학 지식 기반 위에 언어 공학적 지식을 접목하여 기존의 면대면 회화 능력 평가의 한계성을 극복하고자 한다.
    본 연구는 중국어 회화 능력 자동 평가 시스템 구축 연구와 동시에 중국어 실험 음성학과 음운론, 그리고 중국어 교육과 한중 음성 기술 산업의 발전을 위한 체계적이고 종합적인 기초적 자료를 제공한다는 측면에서 기존 연구 결과와의 차별성을 갖는다.
  • 기대효과
  • 음성균형단어와 음운균형문장, 중국어 습득 과정에서 단계별 학습 목표치에 따른 어휘 구사 능력과 필수적인 문형에 대한 정확도와 숙련성을 제고시키는 공인 평가 시스템의 활성화 논의를 유도할 수 있으며, 음성학적으로는 중국어의 음성적 특징을 밝히는 데 있어서 최소한의 발화 자료를 바탕으로 최대한의 연구 결과를 도출해 낼 수 있고, 음성 공학적으로는 최소한의 음성 데이터베이스를 바탕으로 관련 연구의 최적의 시스템을 구축할 수 있다.
    본 연구는 일차적으로 면대면으로 수행되어져 오던 회화 능력
    평가를 공간적 시간적 제약을 해소하고, 동시에 다수의 인원의 평가를 가능하게 하는 산업적 의의와 면대면 평가가 지니는 주관적 요소의 개입을 근원적으로 차단하여, 효과적인 회화 능력 평가 시스템을 구축하는데 있다.
    본 연구가 성공리에 진행되면, 중국 음성에 대한 종합적이고, 체계적인 데이터베이스를 구축하게 되어, 한․중 양 언어 음성에 관한 대조 연구 및 한국인 학습자의 중국어 발음 분석을 가능하게 하여 그 결과를 토대로 한국인 중국어 학습자에게 발생 가능한 오류 항목을 중심으로 중국어 음성 항목을 선정 집중 교육의 부가적 교육 효과를 도출한다.
    각 음성 항목에 대한 표준 중국어 구사 원어민과 초보적인 외국인 학습자의 다양한 음성(음절, 성조, 강약, 억양, 단어, 문장, 대화문 등 포함)을 데이터베이스의 형태로 가공한다.
    이런 작업은 연구 종료 후 워크북 및 응용 프로그램과 함께 선택적으로 제공하여, 중국어 교육 현장에서 교육 목적에 따라서 음성 항목을 선택하여 손쉽게 이용할 수 있도록 하고자 한다. 따라서, 음성 데이터베이스의 매체는 교육 현장의 환경을 고려하여 CD, CD-ROM으로 제작하여 웹상에서 공개하도록 한다.
    지금까지 한국과 중국에서 구축된 중국어 음성 데이터베이스는 소규모로 제한적 목적으로 구축되어져 왔다. 본 데이터베이스 구축은 중국어 거의 음성 전체의 양상을 파악 가능한 규모와 대상으로 분석, 체계화하여 중국어의 연구와 교육, 음성 인식, 합성 등과 같은 언어공학산업에 활용 가능한 결과를 도출한다.
  • 연구요약
  • 1). 연구의 목적
    본 연구는 청취 능력 평가와 발화 음성의 정확도, 유창성, 합문법성 등의 평가를 웹상에서 자동 평가하여 기존의 면대면 평가의 주관적 오류 등의 한계성을 극복하고, 제한된 시간에 다수의 응시자의 중국어 회화 능력을 객관적으로 평가할 수 있는 언어시스템을 구축해야하는 시대적 수요에 따른 필요성에서 출발한다.
    본 연구는 한국인의 중국어 회화 능력을 자동으로 평가하는 시스템을 구축하기 위한 언어학 및 언어 공학적 지식에 대한 최초의 연구이다.
    시공간적 제약과 면대면 회화 평가의 기술적 제반 요건이 날로 개선 발전하고 있지만, 면대면 평가가 태생적으로 지니는 시공간적 한계성이나 주관적 오류의 한계성을 극복하고 보다 정확한 대량 평가를 위해서는 디지털 방식의 객관적 자동 평가 방식이 필요하다.
    본 연구는 음성 오류를 학습 단계별, 착오 유형별 관점에서 출발한다.
    다양한 종류 집단의 음성 코퍼스를 구축하여 평가 데이터베이스를 설계하여 중국어 회화 능력을 기계적으로 자동 평가하려는 시스템을 연구하고자 한다.
    이러한 언어학 지식 기반 위에 언어 공학적 지식을 접목하여 기존의 면대면 회화 능력 평가의 한계성을 극복하고자 한다.
    본 연구는 중국어 회화 능력 자동 평가 시스템 구축 연구와 동시에 중국어 실험 음성학과 음운론, 그리고 중국어 교육과 한중 음성 기술 산업의 발전을 위한 체계적이고 종합적인 기초적 자료를 제공한다는 측면에서 기존 연구 결과와의 차별성을 갖는다.

    2). 연구내용 요약
    본 연구에서 제시하는 중국어 회화 능력 평가 시스템은 다음과 같이 구성된다. 평가는 전화나 웹상의 마이크를 통하여 평가 시스템에 연결하여 진행되며, 평가시스템이 문항 시나리오에 따라 응시자에게 일련의 문항을 중국어로 제시하면 응시자는 적절한 답을 중국어로 말한다.
    응시자의 음성은 디지털 신호 처리되고 음향모델과 발음사전, 응답네트워크를 사용한 회화능력 평가 엔진에서 평가되어 진다.
    본 시스템은 중국 언어학적인 지식 기반에서 중국어 회화 능력의 평가를 위해서 다양한 문항유형의 설계와 문항 시나리오의 개발이 필요하다.
    본 시스템이 동작하는데 필요한 언어학적 지식의 상관관계는 다음과 같다. 문항 유형별로 문항시나리오가 작성되어지며, 문항시나리오는 응답네트워크, 정답음성 데이터베이스 및 문항음성 데이터베이스를 결정하게 되며, 정답음성 데이터베이스와 문항음성 데이터베이스와 음운적으로 균형 잡힌 단어들로 구성된 일반 음성 데이터베이스와 결합하여 음향모델을 구축하게 된다. 또한 일반음성 데이터베이스는 발음 사전을 구성하는데 사용되어진다.
    이러한 시스템 구축을 위해서는 아래 절차에 따라 언어학적 지식을 구축해야 한다.
    (1) 우선 평가의 목적을 달성하기 위한 문항의 유형 설계와
    문항 시나리오의 개발 과정
    (2) 문항의 시나리오를 바탕으로 문항과 정답에 대한
    음성데이터베이스의 구축
    (3) 가능한 응답에 대한 네트워크를 구축
    (4) 음성적으로 균형 잡힌 음성 데이터베이스를 사용하여 여러 가지
    응답에 대한 평가가 가능하도록 시스템 구축

    평가 시스템에 필요한 언어학적 지식의 구축 절차

    즉, 본 시스템의 작동을 위한 연구 내용은 아래 과정에 따라 수행한다.
    가. 회화능력 평가를 위한 문항 유형 설계
    나. 회화능력 평가를 위한 문항 시나리오 개발
    다. 문항 및 정답 음성 데이터베이스 구축
    라. 음성적으로 균형 잡힌 단어 및 음운적으로 균형을 갖춘 문장을
    선정하여 음성 데이터베이스 구축
    마. 입력 음성의 평가를 위한 음향모델 구축
    입력 음성의 평가를 위해서 정답으로 준비된 음성과의 단순한 비교를 통해서는 회회능력을 평가할 수 없다.
    발음 정확도, 유창성, 어휘구사력 등 다양한 영역의 평가를 위해서는 미리 구축되어진 음성 데이터베이스를 사용하여 평가 영역별로 음향모델을 구축한다.
    이러한 음향모델은 입력 음성을 분석한 결과와 비교되며, 입력음성과 음향모델이나, 발음사전의 가장 유사 집단의 음성자질과 일치도 판정을 거친 다음 응답자의 음성이 지니는 회화 능력이 점수로 표출된다.
    시스템은 회화 능력 평가를 위해 개발된 여러 문항 시나리오 중 응답자를 위해 임의의 문항들을 결정한다. 이때, 결정되는 문항은 제시할 문항유형의 문항 그룹 내에서 선정된다.
    선정된 문항은 음성 데이터베이스에 있는 음성을 사용하여 응답자에게 전화나 웹상의 스피커로 전달된다. 응답자는 지시에 따라 중국어로 응답을 하게 되고, 이 음성은 디지털 처리과정을 거쳐 평가 시스템으로 전달된다.
  • 한글키워드
  • 평가 엔진,평가 시스템,음성 데이터베이스,음성 공학,중국어,음성학, 평가 시스템,필수적인 문형,어휘 구사 능력,단계별 학습 목표치,중국어 습득,음운균형문장,음성균형단어
  • 영문키워드
  • Duration CTI(Computer Telephony Integration,phonetically balanced words,phonological rules,labio-dental,alveolo-palatal,retrofrex,phonemes,allophones,phonologically balanced sentences,intonation,range of pitch,Pitch,Glottal Waveform,Spectrum Tilt,Bandwidth,Frequency,database,chinese,dental,palato-alveolar,affricate,unstressed,stress,tone,approximant,bilabial
결과보고시 연구요약문
  • 국문
  • 중국어 회화능력을 자동으로 평가하기 위한 시스템의 설계에 대해 기술, 즉, 중국어 회화능력을 자동으로 평가하는
    언어시스템을 구축하는 데 필요한 조건들을 제시하였고, 그 조건을 만족하는 시스템을 구축하기 위해서 필요한
    소프트웨어 및 하드웨어 시스템을 설계하였다.
    중국어 회화능력을 평가하는데 핵심적인 역할을 하는 회화능력 평가엔진은 평가가 시작되면 문항을 결정해서 출력하며,
    수신된 음성을 신호처리하여 특징을 추출하도록 하였다. 그리고, 응답네트워크에 따라 음향모델과 발음사전으로부터
    구성된 참조모델과의 유사성을 계산하도록 하였다. 음향모델의 구축과 발음정확도 측정기술의 기본성능을 평가하기
    위해 기존에 설계된 문항에 대한 음성 코퍼스를 구축하고, 단어단위의 음성인식을 수행하였다. 기본적인 성능은 충분한
    것으로 판단되나, 회화능력 평가에 사용하기에는 미흡하여 음성인식의 성능개선에 사용된 기술들의 도입이 필요한 것
    으로 판단된다. 중국어 원어민 음성의 피치 변화를 분석하고, 중국어 학습자의 화화 능력 평가에 피치 변화를 활용할
    수 있는 근거를 제시하였다. 본 연구에서 기술된 설계를 바탕으로 3차년도에서는 중국어 회화능력 자동평가시스템
    구축을 시도했다. 지금까지의 연구 내용을 요약하면 아래와 같다.
    1. 한국인의 중국어 회화 능력을 자동으로 평가하기(ATCP) 위한 문항설계
    ATCP는 CBT(Computer Based Test)방식으로, 기존의 면대면 회화능력 평가에 있어서 한계로 지적되어 왔던 비용, 시
    간적/공간적 제약, 평가위원(간)의 주관적 오류/편차 등의 문제점이나 한계성을 극복하고 제한된 시간에 다수 응시자
    의 중국어 회화 능력을 객관적으로 평가할 수 있게 하는 시스템이다. ATCP의 평가 방식은 웹상의 마이크를 통하여
    평가 시스템에 연결하여 진행되며, ATCP를 위해 개발한 문항 시나리오에 따라 응시자에게 일련의 문항을 중국어로
    제시하면 응시자는 적절한 답을 중국어로 말하게 되고, 응시자의 음성은 디지털 신호로 처리되어 음향모델과 발음사
    전, 응답네트워크를 사용한 회화능력 평가 엔진에서 평가된 후 빠른 시간 내에 그 결과를 응시자에게 통보하게 된다.
    1.평가 내용과 등급 1.1 발음 1.2 단어, 문장, 문맥에 대한 이해도 1.3 대화에 대한 이해도 1.4 등급
    2.평가 항목 2.1 소리 내어 읽기 2.2 문장 따라 말하기 2.3 단답형 질문 2.4 문장 구성하여 말하기
    2. 음성 코퍼스 수집
    구축한 전체 음성 코퍼스는 총 22,149개의 파일로 이루어져 있으며, 1인당 222개의 파일로
    구성된다. 남녀화자 100명에 대해 22,200개의 파일이 되어야 하지만, 말더듬이나 말고침 현상에
    의해 제거되어진 것이 51개이다. 각 파일들은 Microsoft wav파일 포맷으로 저장되었으며,
    전체 용량은 1.24GB(CD 2장 분량)를 차지한다. 또한 추가 남, 여 각 30명의 회화능력 등급별 db 작성을 위해,
    소음제거 말고침 현상 수정 작업을 진행했다.
    3. 음성 전송을 위한 환경구축
    원거리에 있는 사용자의 음성을 PC의 마이크를 통해서 전송받아 평가하기 위해서 웹을 통한 음성전송 환경을 구축
    했다. 웹을 통한 음성전송을 위해 웹서버를 구축하였으며, 음성녹음 및 전송, 저장을 담당하는 자바 클라이언트 프로
    그램과 음성전송 CGI 프로그램을 작성하였다. 이 프로그램을 이용하면 PC에서 마이크를 사용해서 음성을 녹음하고,
    인터넷을 통해서 서버에 전송하여 저장할 수 있다. 사용자는 웹브라우저의 자바 클라이언트 프로그램에서 버튼을 사
    용하여 음성의 녹음과 전송을 지시하게 된다.
    4. 음성 코퍼스 발음인식에 대한 선실험
    녹음된 음성 코퍼스는 사용자의 발음 정확도, 유창성, 어휘구사력 등의 능력을 평가하는데 기준으로 사용하게 된다.
    이러한 여러 능력 중 발음 정확도에 대한 능력을 평가하기 위해서는 음성인식 기술을 사용하게 된다. 사용할 음성인
    식 기술을 확보하고, 그 기술의 기본적인 성능을 평가해 보기 위하여 음성인식 실험을 실시하였다.
  • 영문
  • We presented the necessary conditions for constructing language processing system which automatically evaluates
    Chinese conversation proficiency.

    Also, we have designed software and hardware systems to build the system which satisfies the conditions.

    The evaluation engine for Chinese conversation proficiency, which has the key role in Chinese conversation
    proficiency testing, determines questions, outputs them, processes the signal of received speech, and extracts
    the features. It also calculates similarities from reference model which consists of acoustic model and pronunciation
    dictionary, along response network. We constructed acoustic corpus and performed speech recognition in
    word unit level to evaluate basic performance of acoustic model and evaluation technique for pronunciation accuracy.
    We thought that basic performance is sufficient; however, some improvements are necessary. We analyzed
    pitches of native Chinese, and proposed grounds for using pitches for testing conversation proficiency.

    1. Problem design for automatic testing of Chinese conversation proficiency (ATCP) for Korean: ATCP is a computer
    based testing method, and overcomes cost problem, time/space constrains and subjective error or derivations which
    are occurred in face-to-face testing.

    2. Speech corpus construction: Constructed speech corpus has 22,149 files. 100 people spoke 222 words or
    sentence each.

    3. Construction of environment for speech transmission: We constructed speech transmission environment via
    web in which the system can get speeches of users and evaluate them.

    4. Experiments of speech recognition for speech corpus: We performed speech recognition experiments to
    evaluate the basic performance
연구결과보고서
  • 초록
  • 본 연구는 청취 능력 평가와 발화 음성의 정확도, 유창성, 합문법성 등의 평가를 웹상에서 자동 평가하여 기존의 회화능력 평가에 있어서 면대면 평가의 주관적 오류 등의 한계성을 극복하고, 제한된 시간에 다수의 응시자의 중국어 회화 능력을 객관적으로 평가할 수 있는 언어시스템을 구축하는 데 필요한 언어학 및 언어 공학적 지식에 대한 연구를 목적으로 한다.
    시공간적 제약과 면대면 회화 평가의 기술적 제반 요건이 날로 개선 발전하고 있지만, 면대면 평가가 태생적으로 지니는 시공간적 한계성이나 주관적 오류의 한계성을 극복하고 보다 정확한 대량 평가를 위해서는 디지털 방식의 객관적 자동 평가 방식이 필요하다.
    본 연구는 음성 오류를 학습 단계별, 착오 유형별 관점에서 출발하여 완전무결한 음성 코퍼스에서 부터 초보 수준의 중국어 학습자의 음성까지 다양하고 체계적인 종합 평가 데이터베이스를 구축하여 응답자의 질의에 대한 반응이 평가 데이터베이스의 어떤 부류에 속하는지의 판단에 따른 자동 평가 시스템을 구축하고자 한다.
    화자 음성의 개인적인 특성은 크게 음향학적 요소와 운율적인 요소로 나누어진다. 음향학적인 요소는 포먼트 주파수(Frequency), 포먼트 대역폭(Bandwidth), 스펙트럼 기울기(Spectrum Tilt)와 성문 파형(Glottal Waveform) 등이 있으며 운율적 요소는 주기(Pitch), 발성 지속시간(Duration) 등이 있다.
    질의에 반응하는 응답자의 이러한 음성 자질들이 평가데이터베이스에 구축된 다양한 평가 코퍼스의 어느 부류의 특질과 가장 유사한가를 판단함으로써 화자의 중국어 회화 능력을 기계적으로 자동 평가하려는 시스템을 연구하고자 한다.
    본 연구는 이러한 언어학 지식 기반 위에 언어 공학적 지식을 접목하여 기존의 면대면 회화 능력 평가의 한계성을 극복하고자 한다.
    본 연구는 중국어 회화 능력 자동 평가 시스템 구축 연구와 동시에 중국어 실험 음성학과 음운론, 그리고 중국어 교육과 한중 음성 기술 산업의 발전을 위한 체계적이고 종합적인 기초적 자료를 제공한다는 측면에서 기존 연구 결과와의 차별성을 갖는다.
  • 연구결과 및 활용방안
  • 본 연구에서 구축된, 중국 음성에 대한 종합적이고, 체계적인 데이터베이스는 한․중 양 언어 음성에 관한 대조 연구 및 한국인 학습자의 중국어 발음 분석을 가능하게 하여 그 결과를 토대로 한국인 중국어 학습자에게 발생 가능한 오류 항목을 중심으로 중국어 음성 항목을 선정 집중 교육의 부가적 교육 효과를 도출할 수 있다.
    각 음성 항목에 대한 표준 중국어 구사 원어민과 초보적인 외국인 학습자의 다양한 음성(음절, 성조, 강약, 억양, 단어, 문장, 대화문 등 포함)을 데이터베이스의 형태로 제공한다. 제공되는 자료는 워크북 및 응용 프로그램과 함께 선택적으로 제공하여, 중국어 교육 현장에서 교육 목적에 따라서 음성 항목을 선택하여 손쉽게 이용할 수 있도록 하고자 한다. 따라서, 음성 데이터베이스의 매체는 교육 현장의 환경을 고려하여 CD, CD-ROM으로 제작하여 웹상에서 공개할 예정이다.
    지금까지 한국과 중국에서 구축된 중국어 음성 데이터베이스는 소규모로 제한적 목적으로 구축되어져 왔다. 본 데이터베이스 구축은 중국어 거의 음성 전체의 양상을 파악 가능한 규모와 대상으로 분석, 체계화하여 중국어의 연구와 교육, 음성 인식, 합성 등과 같은 언어공학산업에 활용 가능한 결과를 도출할 수 있다. 추후 부가적인 실용화 노력을 추가한다면, 일차적으로 면대면으로 수행되어져 오던 회화 능력 평가를 공간적 시간적 제약을 해소하고, 동시에 다수의 인원의 평가를 가능하게 하는 산업적 의의와 면대면 평가가 지니는 주관적 요소의 개입을 근원적으로 차단하여, 효과적인 회화 능력 평가 시스템을 구축할 수 있다.
  • 색인어
  • 회화능력평가(conversation proficiency testing), 자동평가(automatic testing), 정확도(correctness), 유창성(fluency), 문법성(grammaticality), 시스템설계(system design), 서버-클라이언트시스템(server client system)
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력