보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10013227&local_id=10023037

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10013227&local_id=10023037

음성언어처리에서 음운론적 운율론적 지식의 통합

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 음성언어처리에서 음운론적 운율론적 지식의 통합 | 2006 년 | 김선희(서울대학교)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00063
선정년도	2006 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2010년 02월 25일
연차구분	결과보고
결과보고년도	2010년

결과보고시 연구요약문

국문
현대 사회의 컴퓨터 사용자 계층은 점점 그 범위와 수가 넓어지며 앞으로도 계속 증가할 것으로 예상 되는 바, 이에 따라 많은 사람들은 더 편리하고 익히기 쉬운 컴퓨터의 사용법을 원하고 생활 속에서 더 많이 컴퓨터를 활용하기를 원하게 된다. 음성언어처리기술이란 ...

현대 사회의 컴퓨터 사용자 계층은 점점 그 범위와 수가 넓어지며 앞으로도 계속 증가할 것으로 예상 되는 바, 이에 따라 많은 사람들은 더 편리하고 익히기 쉬운 컴퓨터의 사용법을 원하고 생활 속에서 더 많이 컴퓨터를 활용하기를 원하게 된다. 음성언어처리기술이란 컴퓨터가 인간이 일상 대화에 사용하는 ‘말’을 인식하고 이해하여 인간과 자연스러운 대화를 가능하게 하는 기술로서, 컴퓨터 사용자들의 필요를 충족시켜 사용자의 컴퓨터 이용을 보다 용이하게 한다. 오늘날의 음성언어처리기술은 인터넷의 컨텐츠 및 IT 기술과 결합하여 다양한 상품과 서비스 개발을 가능하게 한다. 음성언어처리기술이 실제 사용되는 대표적인 예로는 음성인식과 음성합성 기반의 콜센터 안내, 자동차 텔레매틱스 서비스, 자연언어 질의응답 기반의 정보검색, 기계통번역 등의 언어처리 응용 시스템을 들 수 있다.
음성언어처리 기술은 음성인식, 음성합성, 언어처리 등의 기술을 기반으로 한 전자공학, 컴퓨터공학, 심리학, 언어학 등의 학제간의 연구가 필수적인 분야인데, 우리나라에서는 이 분야에 관한 연구가 주로 공학적인 접근만이 이루어져 그 발전의 한계로 지적되어 왔다. 그 동안 언어학의 통합에 대한 필요성은 더 증가하고 있으나 음소나 형태소와 같은 기본적인 단위들을 공학자들이 채용하여 사용하는 정도에 그치고, 실제 언어학적인 지식이 음성언어처리 시스템에 통합된 예는 많지 않았다
본 연구는 음성언어처리에서 언어학적인 지식의 통합을 위한 연구 가운데 음성인식이나 음성합성 시스템에 필수적인 음운론적 운율론적 지식을 체계화하는 것을 그 목적으로 한다. 먼저, 음운론적 지식의 통합을 위한 주제로는 복합 명사의 문자음성변환의 문제를 다루고, 다음으로 운율론적 지식의 통합을 위한 주제로 대화체 음성의 운율적 특징을 분석하였다.
1차년도 연구 주제는 음성언어처리에서 음운론적 지식의 통합 연구로서 복합명사의 문자음성변환의 문제이다. 이를 위하여 복합명사의 기본 발화 단위 분석 및 정의하여, 기본 발화 단위 내부의 불규칙 발음 검출 및 발음 변이 모델링하고, 기본 발화 단위 경계의 발음 변이 규칙 모델링하는 것을 그 세부 연구 내용으로 하였다. 이러한 연구는 음운론적인 관점에서는 언어 현상에 대하여 새롭게 이해하는 시각을 제시하고, 응용에 있어서는 음성 인식과 음성 합성 시스템 개발을 위한 다중 발음 사전의 개발에 기여할 수 있었다.
2차년도의 연구 주제는 음성언어처리에서 음운론적 지식의 통합 연구로서 대화체 음성의 운율적 특징 분석의 문제이다. 이를 위하여 프랑스에서 개발된 자동 억양 궤적 추출 알고리듬인 Momel 이용하여 억양 패턴을 추출하는 방법을 제시하고, 제시한 방법론에 따라 음성 코퍼스를 분석한 다음 그 결과를 기존의 연구와 비교하였다. 또한, 음성언어처리 분야에서 운율 연구가 어떻게 진행되어 왔는지 선행 연구들을 살펴보고, 한국어의 음성정보처리 시스템의 성능 향상을 위하여 음성정보와 문법정보를 기반으로 한 자동 운율 경계 추정 방법을 제안하였다.
3차년도에는 한국어 자유 발화 음성의 억양 패턴으로서 기본적으로 강세구(AP: Accentual Phrase)와 억양구(IP: Intonation Phrase)의 2개의 억양 단위가 계층적인 구조임을 제안하는 K-ToBI 억양 모델을 기반으로 하여, 자유 발화 음성 가운데 두 화자가 여행 계획 영역에서 대화하는 음성을 녹음한 대화 음성을 그 대상으로 하여 자유 발화 음성에서 관찰되는 억양 패턴들을 추출하여 그 특성을 낭독체 음성과 비교하여 고찰하였다.

영문
As the use of computers spreads throughout society with expectations of further future growth, demand is growing for a more user friendly computer with more applications in our everyday life. Speech processing technology enables computers to recognize ...

As the use of computers spreads throughout society with expectations of further future growth, demand is growing for a more user friendly computer with more applications in our everyday life. Speech processing technology enables computers to recognize and understand everyday speech so that natural communication with human beings is possible, thereby satisfying user demand for increased convenience. The integration of speech processing technology with internet contents and IT technology has paved the way for diverse products and services. Call centers with voice recognition and synthesis capabilities, automobile telematics services, question and answer natural language utilizing search engines, and language translation systems are some of the main applications of speech processing technology.

Speech processing technology requires the interdisciplinary work in electronic engineering, computer engineering, psychology and linguistics and others. So far in Korea, however, speech processing technology research has been approached primarily from an engineering perspective, which has been thought to have limited its development. Although recently there has been an increased awareness of the necessity of linguistic integration, its application has been limited to the use of very basis linguistic units such as phonemes and morphemes, and there has been few instances where linguistics methods have been integrated into speech processing systems. This project aims to establish phonological and prosodic knowledge in a systematic way in order to integrate them to the spoken language processing technology. The phonological knowledge for this purpose focuses on the grapheme-to-phoneme conversion of compound nouns, and the prosodic characteristics of dialogue speech are analyzed as prosodic knowledge, which is to be employed in spoken language processing systems.

The first year of the project is concentrated on the grapheme-to-phoneme conversion of compound nouns based on the definition of the basic prosodic units of compound words. A method of extracting words with exceptional pronunciations is proposed, which includes modeling of pronunciation variations at the boundary of prosodic units. This study will, on the one hand, provide an understanding of Korean language from the phonological point of view, and, on the other hand, enable a systematic development of a multiple pronunciation lexicon for Korean TTS or ASR systems of high performance.

The second year focuses of the problem of the prosodic characteristics of dialogue speech and proposes how to extract intonation patterns using Momel, a pitch stylization algorithm, and includes results of analyzing speech corpora in comparison with those in earlier researches. Furthermore, a method of automatically detecting prosodic boundaries is also proposed using acoustic and grammatical information for the performance improvement of speech information processing systems, based on the research on previous studies in this area,

The third year is concentrated on the investigation of the intonation patterns of Korean spontaneous speech through an analysis of four dialogues in the domain of travel planning, based on K-ToBI system, which assumes two hierarchical units of Accentual Phrases (AP) and Intonation Phrases (IP), using Momel, an intonation stylization algorithm. The results of the study are compared to those of the read speech.

연구결과보고서

초록
현대 사회의 컴퓨터 사용자 계층은 점점 그 범위와 수가 넓어지며 앞으로도 계속 증가할 것으로 예상 되는 바, 이에 따라 많은 사람들은 더 편리하고 익히기 쉬운 컴퓨터의 사용법을 원하고 생활 속에서 더 많이 컴퓨터를 활용하기를 원하게 된다. 음성언어처리기술이란 ...

현대 사회의 컴퓨터 사용자 계층은 점점 그 범위와 수가 넓어지며 앞으로도 계속 증가할 것으로 예상 되는 바, 이에 따라 많은 사람들은 더 편리하고 익히기 쉬운 컴퓨터의 사용법을 원하고 생활 속에서 더 많이 컴퓨터를 활용하기를 원하게 된다. 음성언어처리기술이란 컴퓨터가 인간이 일상 대화에 사용하는 ‘말’을 인식하고 이해하여 인간과 자연스러운 대화를 가능하게 하는 기술로서, 컴퓨터 사용자들의 필요를 충족시켜 사용자의 컴퓨터 이용을 보다 용이하게 한다. 오늘날의 음성언어처리기술은 인터넷의 컨텐츠 및 IT 기술과 결합하여 다양한 상품과 서비스 개발을 가능하게 한다. 음성언어처리기술이 실제 사용되는 대표적인 예로는 음성인식과 음성합성 기반의 콜센터 안내, 자동차 텔레매틱스 서비스, 자연언어 질의응답 기반의 정보검색, 기계통번역 등의 언어처리 응용 시스템을 들 수 있다.
음성언어처리 기술은 음성인식, 음성합성, 언어처리 등의 기술을 기반으로 한 전자공학, 컴퓨터공학, 심리학, 언어학 등의 학제간의 연구가 필수적인 분야인데, 우리나라에서는 이 분야에 관한 연구가 주로 공학적인 접근만이 이루어져 그 발전의 한계로 지적되어 왔다. 그 동안 언어학의 통합에 대한 필요성은 더 증가하고 있으나 음소나 형태소와 같은 기본적인 단위들을 공학자들이 채용하여 사용하는 정도에 그치고, 실제 언어학적인 지식이 음성언어처리 시스템에 통합된 예는 많지 않았다
본 연구는 음성언어처리에서 언어학적인 지식의 통합을 위한 연구 가운데 음성인식이나 음성합성 시스템에 필수적인 음운론적 운율론적 지식을 체계화하는 것을 그 목적으로 한다. 먼저, 음운론적 지식의 통합을 위한 주제로는 복합 명사의 문자음성변환의 문제를 다루고, 다음으로 운율론적 지식의 통합을 위한 주제로 대화체 음성의 운율적 특징을 분석하였다.
1차년도 연구 주제는 음성언어처리에서 음운론적 지식의 통합 연구로서 복합명사의 문자음성변환의 문제이다. 이를 위하여 복합명사의 기본 발화 단위 분석 및 정의하여, 기본 발화 단위 내부의 불규칙 발음 검출 및 발음 변이 모델링하고, 기본 발화 단위 경계의 발음 변이 규칙 모델링하는 것을 그 세부 연구 내용으로 하였다. 이러한 연구는 음운론적인 관점에서는 언어 현상에 대하여 새롭게 이해하는 시각을 제시하고, 응용에 있어서는 음성 인식과 음성 합성 시스템 개발을 위한 다중 발음 사전의 개발에 기여할 수 있었다.
2차년도의 연구 주제는 음성언어처리에서 음운론적 지식의 통합 연구로서 대화체 음성의 운율적 특징 분석의 문제이다. 이를 위하여 프랑스에서 개발된 자동 억양 궤적 추출 알고리듬인 Momel 이용하여 억양 패턴을 추출하는 방법을 제시하고, 제시한 방법론에 따라 음성 코퍼스를 분석한 다음 그 결과를 기존의 연구와 비교하였다. 또한, 음성언어처리 분야에서 운율 연구가 어떻게 진행되어 왔는지 선행 연구들을 살펴보고, 한국어의 음성정보처리 시스템의 성능 향상을 위하여 음성정보와 문법정보를 기반으로 한 자동 운율 경계 추정 방법을 제안하였다.
3차년도에는 한국어 자유 발화 음성의 억양 패턴으로서 기본적으로 강세구(AP: Accentual Phrase)와 억양구(IP: Intonation Phrase)의 2개의 억양 단위가 계층적인 구조임을 제안하는 K-ToBI 억양 모델을 기반으로 하여, 자유 발화 음성 가운데 두 화자가 여행 계획 영역에서 대화하는 음성을 녹음한 대화 음성을 그 대상으로 하여 자유 발화 음성에서 관찰되는 억양 패턴들을 추출하여 그 특성을 낭독체 음성과 비교하여 고찰하였다.

연구결과 및 활용방안
(1) 연구 결과
3년 동안 진행된 본 과제는 원래 계획되었던 추진 일정에 따라 현재 모든 연구가 완료되었고, 연구 결과물로 국내 학술지에 논문 3편을 게재하였다.
자동 발음열 생성이란 주어진 언어의 맞춤법 체계를 반영하고 있는 문자열을 음성 체계를 반영하는 ...

(1) 연구 결과
3년 동안 진행된 본 과제는 원래 계획되었던 추진 일정에 따라 현재 모든 연구가 완료되었고, 연구 결과물로 국내 학술지에 논문 3편을 게재하였다.
자동 발음열 생성이란 주어진 언어의 맞춤법 체계를 반영하고 있는 문자열을 음성 체계를 반영하는 발음열로 변환하는 것을 의미한다. 본 연구에서 위치 정보(Point-of-Interest: POI) 데이터의 자동 발음 변환 방안을 제시하는데, POI의 발음 모델링의 문제는 먼저 POI데이터의 가능한 모든 발음을 생성하고, 이 생성된 모든 발음으로부터 다시 음향적 복잡도를 줄이기 위하여 발음변이 수를 조절하여 발음 사전을 생성하여 수행될 수 있다. 일반적으로 운율 정보를 음성인식에 이용한 연구들에 있어서는 대부분 운율의 음향적 정보를 이용하는데 반하여, 본 연구에서는 운율어나 음절 수와 같은 운율의 구조적 정보를 이용하여 발음 모델링을 할 경우에 음성인식의 성능이 향상될 수 있음을 보였다.
대화체 운율 특징의 분석 방법 제시하기 위하여 자동 억양 궤적 추출 알고리듬인 Momel을 이용하여 한국어의 억양 패턴을 추출하는 방법을 제안하고, 제안한 방법론에 따라 음성 데이터를 분석한 다음 그 결과를 기존의 연구와 비교하였다. 두 가지 음성 코퍼스를 대상으로 분석한 결과 기존의 연구와 비교할 때 얻어진 강세구 패턴과 억양구 경계 성조 패턴은 거의 유사하였다. 이러한 연구를 바탕으로 하여 문법정보와 음성정보를 이용하여 한국어 운율 경계를 추정하는 방법을 제안하고, 제안된 방법과 같이 문법정보 이외에도 실제 음성정보를 이용함으로써 더 좋은 성능을 얻을 수 있음을 보였다.
대화체 음성의 억양 특징 분석하기 위하여 다시 Momel을 이용한 한국어의 억양 패턴을 추출하는 방법을 제안하고, 제안한 방법론에 따라 음성 데이터를 분석한 다음 그 결과를 기존의 연구와 비교하였다. 발화 계획과 발화가 동시에 진행되는 자유 발화 음성에서는 비유창성 현상으로 망설임 장음화가 일어나는 것을 볼 수 있다. 이 망설임 장음화는 억양구말 장음화와 구별되고, 강세구와 억양구 모두에서 비교적 자유롭게 일어나는 현상으로 강세구와 억양구의 억양 패턴에 영향을 미치게 되므로, 한국어 자유 발화 음성의 억양 패턴은 이러한 망설임 장음화를 포함하여 설명되어야 한다. 망설임 장음화는 강세구의 내부에서 높은 출현 빈도를 가지고 실현된다. 망설임 장음화가 일어나는 강세구를 제외하면 자유 발화 음성의 강세구는 낭독체 음성에서 관찰되는 억양 패턴이 모두 나타나고 그 분포도 유사하지만, 낭독체 음성에서는 상승조 강세구의 출현 빈도가 우세한 반면에, 자유 발화 음성의 경우는 하강조가 많이 실현되는 것을 볼 수 있다. 마지막으로 자유 발화 음성의 억양구말 경계 성조는 낭독체와 같이 5개의 패턴이 나타나는데, 서술문 끝을 포함하여 상승조가 많이 나타나고 복합 성조가 많이 나타나는 것이 그 특징이라고 하겠다. 현재 후속 연구로 망설임 장음화에 대한 계량적인 연구가 진행되고 있고, 향후 망설임 장음화를 비롯한 비유창성 현상에 대한 체계적인 연구를 포함하여 한국어의 자유 발화 음성에 대한 다양한 각도에서의 많은 연구가 계속되어야 할 것이다.

(2) 활용 방안
언어학적인 측면에서는 기존의 이론으로는 일반적으로 접근할 수 없었던 자유 발화 음성에 관하여 음성학적, 음운론적, 및 운율론적 연구를 통하여 제한적으로 연구 되었던 언어 현상에 대한 새로운 기술을 가능하게 하고, 또한 이러한 새로운 언어 현상을 설명하기 위한 이론을 발전시킬 수 있다.
과학 기술적 측면에서는 현재 외국에서는 집중적인 투자에 의해 음성학적 분석 및 음성 신호 처리에 기초 자료가 풍부한 것에 비해 아직 우리나라는 연구가 미비한 실정이며, 특히 대화 음성의 연음현상이나 조음현상에 대한 연구와 자연어 처리를 접목시킴으로써 인간과 기계와의 대화 시스템에서의 필수 요소인 음성인식 시스템의 성능을 향상시킨다. 따라서 국내에서의 연속음성인식이 실용화되어 사용될 수 있는 기반이 마련되고, 나아가 인간과 기계와의 대화에서 그 성능 향상에 기여하게 된다.
경제 산업적 측면에서는 화자의 의도나 발화의 내용을 해석할 수 있게 하는 비언어적 운율 정보를 추출하는 방법의 개발은 음성 언어에서 잠재적인 중의성을 현저하게 감소시켜, 음성 인식, 음성 합성, 음성 통역, 등과 같은 음성 처리 분야에 응용될 때 많은 유용한 음성 기술 관련 솔루션을 개발하는 데 기여하고, 이밖에도 음성 병리학과 언어 교육 등에 응용될 수 있다. 이에 연속음성 시스템을 기반으로 한 대화시스템을 개발함으로써 다양한 응용분야에 그 파급효과가 기대된다.

색인어
음운론, 운율, 음성언어처리, 음성인식, 음성합성, 통합, 문자 음성 변환, 복합명사, 발음 변이, 불규칙 발음, 형태소 분석, 발음열, 생성, 운율어, 예외발음, 낭독체, 대화체, 음성 코퍼스, 음향학적 특성, 대화 현상, 발화 속도, 구문론적, 의미론적, 음성학적, 억양, 억양 패턴, 음성 정보, 문법 정보, 자동 운율 경계 추정, 강세구, 억양구, 자유 발화 음성, 여행 계획 영역, 대화 음성, ToBI, Momel

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 음성학(언어학)
2순위 : 공학 > 컴퓨터학 > 자연언어 > 음성처리
3순위 : 인문학 > 언어학 > 음운론(언어학)

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.