보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10018939&local_id=10028612

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10018939&local_id=10028612

중국어 음성 데이터베이스 구축 및 중국어 회화능력 자동평가 시스템 연구

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 중국어 음성 데이터베이스 구축 및 중국어 회화능력 자동평가 시스템 연구 | 2008 년 신청요강 다운로드

| 성윤숙(위덕대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00105
선정년도	2008 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2011년 12월 30일
연차구분	결과보고
결과보고년도	2011년

결과보고시 연구요약문

국문
중국어 회화능력을 자동으로 평가하기 위한 시스템의 설계에 대해 기술, 즉, 중국어 회화능력을 자동으로 평가하는
언어시스템을 구축하는 데 필요한 조건들을 제시하였고, 그 조건을 만족하는 시스템을 구축하기 위해서 필요한
소프트웨어 및 하드웨어 시스템을 설계 ...

중국어 회화능력을 자동으로 평가하기 위한 시스템의 설계에 대해 기술, 즉, 중국어 회화능력을 자동으로 평가하는
언어시스템을 구축하는 데 필요한 조건들을 제시하였고, 그 조건을 만족하는 시스템을 구축하기 위해서 필요한
소프트웨어 및 하드웨어 시스템을 설계하였다.
중국어 회화능력을 평가하는데 핵심적인 역할을 하는 회화능력 평가엔진은 평가가 시작되면 문항을 결정해서 출력하며,
수신된 음성을 신호처리하여 특징을 추출하도록 하였다. 그리고, 응답네트워크에 따라 음향모델과 발음사전으로부터
구성된 참조모델과의 유사성을 계산하도록 하였다. 음향모델의 구축과 발음정확도 측정기술의 기본성능을 평가하기
위해 기존에 설계된 문항에 대한 음성 코퍼스를 구축하고, 단어단위의 음성인식을 수행하였다. 기본적인 성능은 충분한
것으로 판단되나, 회화능력 평가에 사용하기에는 미흡하여 음성인식의 성능개선에 사용된 기술들의 도입이 필요한 것
으로 판단된다. 중국어 원어민 음성의 피치 변화를 분석하고, 중국어 학습자의 화화 능력 평가에 피치 변화를 활용할
수 있는 근거를 제시하였다. 본 연구에서 기술된 설계를 바탕으로 3차년도에서는 중국어 회화능력 자동평가시스템
구축을 시도했다. 지금까지의 연구 내용을 요약하면 아래와 같다.
1. 한국인의 중국어 회화 능력을 자동으로 평가하기(ATCP) 위한 문항설계
ATCP는 CBT(Computer Based Test)방식으로, 기존의 면대면 회화능력 평가에 있어서 한계로 지적되어 왔던 비용, 시
간적/공간적 제약, 평가위원(간)의 주관적 오류/편차 등의 문제점이나 한계성을 극복하고 제한된 시간에 다수 응시자
의 중국어 회화 능력을 객관적으로 평가할 수 있게 하는 시스템이다. ATCP의 평가 방식은 웹상의 마이크를 통하여
평가 시스템에 연결하여 진행되며, ATCP를 위해 개발한 문항 시나리오에 따라 응시자에게 일련의 문항을 중국어로
제시하면 응시자는 적절한 답을 중국어로 말하게 되고, 응시자의 음성은 디지털 신호로 처리되어 음향모델과 발음사
전, 응답네트워크를 사용한 회화능력 평가 엔진에서 평가된 후 빠른 시간 내에 그 결과를 응시자에게 통보하게 된다.
1.평가 내용과 등급 1.1 발음 1.2 단어, 문장, 문맥에 대한 이해도 1.3 대화에 대한 이해도 1.4 등급
2.평가 항목 2.1 소리 내어 읽기 2.2 문장 따라 말하기 2.3 단답형 질문 2.4 문장 구성하여 말하기
2. 음성 코퍼스 수집
구축한 전체 음성 코퍼스는 총 22,149개의 파일로 이루어져 있으며, 1인당 222개의 파일로
구성된다. 남녀화자 100명에 대해 22,200개의 파일이 되어야 하지만, 말더듬이나 말고침 현상에
의해 제거되어진 것이 51개이다. 각 파일들은 Microsoft wav파일 포맷으로 저장되었으며,
전체 용량은 1.24GB(CD 2장 분량)를 차지한다. 또한 추가 남, 여 각 30명의 회화능력 등급별 db 작성을 위해,
소음제거 말고침 현상 수정 작업을 진행했다.
3. 음성 전송을 위한 환경구축
원거리에 있는 사용자의 음성을 PC의 마이크를 통해서 전송받아 평가하기 위해서 웹을 통한 음성전송 환경을 구축
했다. 웹을 통한 음성전송을 위해 웹서버를 구축하였으며, 음성녹음 및 전송, 저장을 담당하는 자바 클라이언트 프로
그램과 음성전송 CGI 프로그램을 작성하였다. 이 프로그램을 이용하면 PC에서 마이크를 사용해서 음성을 녹음하고,
인터넷을 통해서 서버에 전송하여 저장할 수 있다. 사용자는 웹브라우저의 자바 클라이언트 프로그램에서 버튼을 사
용하여 음성의 녹음과 전송을 지시하게 된다.
4. 음성 코퍼스 발음인식에 대한 선실험
녹음된 음성 코퍼스는 사용자의 발음 정확도, 유창성, 어휘구사력 등의 능력을 평가하는데 기준으로 사용하게 된다.
이러한 여러 능력 중 발음 정확도에 대한 능력을 평가하기 위해서는 음성인식 기술을 사용하게 된다. 사용할 음성인
식 기술을 확보하고, 그 기술의 기본적인 성능을 평가해 보기 위하여 음성인식 실험을 실시하였다.

영문
We presented the necessary conditions for constructing language processing system which automatically evaluates
Chinese conversation proficiency.

Also, we have designed software and hardware systems to build the system which satisfies the conditio ...

We presented the necessary conditions for constructing language processing system which automatically evaluates
Chinese conversation proficiency.

Also, we have designed software and hardware systems to build the system which satisfies the conditions.

The evaluation engine for Chinese conversation proficiency, which has the key role in Chinese conversation
proficiency testing, determines questions, outputs them, processes the signal of received speech, and extracts
the features. It also calculates similarities from reference model which consists of acoustic model and pronunciation
dictionary, along response network. We constructed acoustic corpus and performed speech recognition in
word unit level to evaluate basic performance of acoustic model and evaluation technique for pronunciation accuracy.
We thought that basic performance is sufficient; however, some improvements are necessary. We analyzed
pitches of native Chinese, and proposed grounds for using pitches for testing conversation proficiency.

1. Problem design for automatic testing of Chinese conversation proficiency (ATCP) for Korean: ATCP is a computer
based testing method, and overcomes cost problem, time/space constrains and subjective error or derivations which
are occurred in face-to-face testing.

2. Speech corpus construction: Constructed speech corpus has 22,149 files. 100 people spoke 222 words or
sentence each.

3. Construction of environment for speech transmission: We constructed speech transmission environment via
web in which the system can get speeches of users and evaluate them.

4. Experiments of speech recognition for speech corpus: We performed speech recognition experiments to
evaluate the basic performance

연구결과보고서

초록
본 연구는 청취 능력 평가와 발화 음성의 정확도, 유창성, 합문법성 등의 평가를 웹상에서 자동 평가하여 기존의 회화능력 평가에 있어서 면대면 평가의 주관적 오류 등의 한계성을 극복하고, 제한된 시간에 다수의 응시자의 중국어 회화 능력을 객관적으로 평가할 수 있 ...

본 연구는 청취 능력 평가와 발화 음성의 정확도, 유창성, 합문법성 등의 평가를 웹상에서 자동 평가하여 기존의 회화능력 평가에 있어서 면대면 평가의 주관적 오류 등의 한계성을 극복하고, 제한된 시간에 다수의 응시자의 중국어 회화 능력을 객관적으로 평가할 수 있는 언어시스템을 구축하는 데 필요한 언어학 및 언어 공학적 지식에 대한 연구를 목적으로 한다.
시공간적 제약과 면대면 회화 평가의 기술적 제반 요건이 날로 개선 발전하고 있지만, 면대면 평가가 태생적으로 지니는 시공간적 한계성이나 주관적 오류의 한계성을 극복하고 보다 정확한 대량 평가를 위해서는 디지털 방식의 객관적 자동 평가 방식이 필요하다.
본 연구는 음성 오류를 학습 단계별, 착오 유형별 관점에서 출발하여 완전무결한 음성 코퍼스에서 부터 초보 수준의 중국어 학습자의 음성까지 다양하고 체계적인 종합 평가 데이터베이스를 구축하여 응답자의 질의에 대한 반응이 평가 데이터베이스의 어떤 부류에 속하는지의 판단에 따른 자동 평가 시스템을 구축하고자 한다.
화자 음성의 개인적인 특성은 크게 음향학적 요소와 운율적인 요소로 나누어진다. 음향학적인 요소는 포먼트 주파수(Frequency), 포먼트 대역폭(Bandwidth), 스펙트럼 기울기(Spectrum Tilt)와 성문 파형(Glottal Waveform) 등이 있으며 운율적 요소는 주기(Pitch), 발성 지속시간(Duration) 등이 있다.
질의에 반응하는 응답자의 이러한 음성 자질들이 평가데이터베이스에 구축된 다양한 평가 코퍼스의 어느 부류의 특질과 가장 유사한가를 판단함으로써 화자의 중국어 회화 능력을 기계적으로 자동 평가하려는 시스템을 연구하고자 한다.
본 연구는 이러한 언어학 지식 기반 위에 언어 공학적 지식을 접목하여 기존의 면대면 회화 능력 평가의 한계성을 극복하고자 한다.
본 연구는 중국어 회화 능력 자동 평가 시스템 구축 연구와 동시에 중국어 실험 음성학과 음운론, 그리고 중국어 교육과 한중 음성 기술 산업의 발전을 위한 체계적이고 종합적인 기초적 자료를 제공한다는 측면에서 기존 연구 결과와의 차별성을 갖는다.

연구결과 및 활용방안
본 연구에서 구축된, 중국 음성에 대한 종합적이고, 체계적인 데이터베이스는 한․중 양 언어 음성에 관한 대조 연구 및 한국인 학습자의 중국어 발음 분석을 가능하게 하여 그 결과를 토대로 한국인 중국어 학습자에게 발생 가능한 오류 항목을 중심으로 중국어 음 ...

본 연구에서 구축된, 중국 음성에 대한 종합적이고, 체계적인 데이터베이스는 한․중 양 언어 음성에 관한 대조 연구 및 한국인 학습자의 중국어 발음 분석을 가능하게 하여 그 결과를 토대로 한국인 중국어 학습자에게 발생 가능한 오류 항목을 중심으로 중국어 음성 항목을 선정 집중 교육의 부가적 교육 효과를 도출할 수 있다.
각 음성 항목에 대한 표준 중국어 구사 원어민과 초보적인 외국인 학습자의 다양한 음성(음절, 성조, 강약, 억양, 단어, 문장, 대화문 등 포함)을 데이터베이스의 형태로 제공한다. 제공되는 자료는 워크북 및 응용 프로그램과 함께 선택적으로 제공하여, 중국어 교육 현장에서 교육 목적에 따라서 음성 항목을 선택하여 손쉽게 이용할 수 있도록 하고자 한다. 따라서, 음성 데이터베이스의 매체는 교육 현장의 환경을 고려하여 CD, CD-ROM으로 제작하여 웹상에서 공개할 예정이다.
지금까지 한국과 중국에서 구축된 중국어 음성 데이터베이스는 소규모로 제한적 목적으로 구축되어져 왔다. 본 데이터베이스 구축은 중국어 거의 음성 전체의 양상을 파악 가능한 규모와 대상으로 분석, 체계화하여 중국어의 연구와 교육, 음성 인식, 합성 등과 같은 언어공학산업에 활용 가능한 결과를 도출할 수 있다. 추후 부가적인 실용화 노력을 추가한다면, 일차적으로 면대면으로 수행되어져 오던 회화 능력 평가를 공간적 시간적 제약을 해소하고, 동시에 다수의 인원의 평가를 가능하게 하는 산업적 의의와 면대면 평가가 지니는 주관적 요소의 개입을 근원적으로 차단하여, 효과적인 회화 능력 평가 시스템을 구축할 수 있다.

색인어
회화능력평가(conversation proficiency testing), 자동평가(automatic testing), 정확도(correctness), 유창성(fluency), 문법성(grammaticality), 시스템설계(system design), 서버-클라이언트시스템(server client system)

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 중국어와문학 > 중국어학 > 음성/음운론(중국어학)
2순위 : 인문학 > 중국어와문학 > 중국어교육
3순위 : 인문학 > 중국어와문학 > 중국어학 > 성운학(중국어학)

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.