연구과제 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10071579&res=y

심층신경망을 이용한 조음 예측 모형 개발 및 응용
Development and applications of articulatory estimation model - using deep neural network

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

사업명	신진연구자지원사업& #40;인문사회& #41; [지원년도 신청 요강 보기 ]
연구과제번호	2016S1A5A8019370
선정년도	2016 년
연구기간	2 년 (2016년 05월 01일 ~ 2018년 04월 30일)
연구책임자	남호성
연구수행기관	고려대학교 영미문화연구소
과제진행현황	진행중

과제신청시 연구개요

연구목표
본 연구는 최신의 기계학습(machine learning) 알고리즘인 인공신경망(artificial neural network: ANN)과 심층신경망(deep neural network: DNN)을 활용하여 말소리의 음향 정보로부터 그 조음 형태를 재구성해 내는 speech inversion를 해결하고자 한다. 또, 세계 최초 ...

본 연구는 최신의 기계학습(machine learning) 알고리즘인 인공신경망(artificial neural network: ANN)과 심층신경망(deep neural network: DNN)을 활용하여 말소리의 음향 정보로부터 그 조음 형태를 재구성해 내는 speech inversion를 해결하고자 한다. 또, 세계 최초로 실시간 조음 예측기(real-time articulatory estimator)를 개발하여 영어 교육과 언어 치료 분야에서의 그 잠재적 유용성을 평가하고자 한다. 구체적으로, 음향 정보와 조음 정보 간의 관계가 비선형(non-linearity)적이며 일대다 대응(one-to-many mapping; non-uniqueness)을 이룬다는 근본적 난점을 해결하지 못했던 기존의 연구들과는 달리, 본 연구는 이러한 대응 관계를 가장 효과적으로 설명할 수 있는 기계학습 알고리즘을 새로운 돌파구로 제시하고자 한다. 더불어, 실제 음성-조음 데이터를 담은 대규모 코퍼스인 미국 위스콘신 대학교의 엑스레이 마이크로빔 데이터(XRMB)를 기반으로 기계학습 모델을 구축함으로써, 언어학과 음성학의 중요한 주제인 음성(acoustics)과 조음(articulation)간의 함수적 관계를 수학적, 공학적으로 밝히고자 한다. 또한, 음성 신호(input)를 역으로 이용, 이를 발생시키는 조음 기관들의 성도 형태(vocal tract configuration; output)를 시각화하는 알고리즘을 개발하여, 어학 교육 및 재활 의학 현장에서 자가 피드백(biofeedback)을 통한 학습 및 치료의 효율을 크게 제고할 도구를 마련하고자 한다.

기대효과
학문적 효과: 본 연구진은 아직 학문적으로 기초 단계에 머무르고 있는 speech inversion 연구에 기계학습이라는 공학적 방법론을 접목하여 역방향 매핑(inverse mapping)을 유의미하고 예측이 가능한 수준으로 끌어올리고자 한다. 이를 통해 언어학에서의 중요한 쟁점인 ...

학문적 효과: 본 연구진은 아직 학문적으로 기초 단계에 머무르고 있는 speech inversion 연구에 기계학습이라는 공학적 방법론을 접목하여 역방향 매핑(inverse mapping)을 유의미하고 예측이 가능한 수준으로 끌어올리고자 한다. 이를 통해 언어학에서의 중요한 쟁점인 음성 발화에 대한 모델을 개선할 수 있다. 본 연구의 의의는 언어학적 연구를 진전시키는 것에 멈추지 않고 기계학습을 이용한 연구의 선례를 남기는 목적까지 달성하고자 한다. 기계학습의 초기값들은 이론적으로 산출되지 않고 반복된 실험과 수정을 통해서만 최적화할 수 있기 때문에, 수차례 학습을 반복하여 결과물을 비교할 수 있는 데이터는 중요한 참고 자료가 된다. 이러한 시각에서 본 연구는 차후 speech inversion을 둘러싼 ANN과 DNN 연구에 중요한 영향을 미칠 것이다. 또한 언어학과 공학을 위시하여 생리학, 심리학 등 다양한 분야에서 접근한 연구로서 학문 간의 교류를 활성화하고 융합 학문 증진에 기여할 것이다.
실용적 효과: 본 연구는 speech inversion을 실제 사용할 수 있는 기술로 발전시킨 실시간 조음 예측기를 구현하는 것을 주 목적으로 두고 있어, 다양한 사회 분야에서 실용적 효과를 보여줄 것이다. 대표적으로 교육 분야에서 실시간 조음 예측기는 새로운 제2언어 학습 방법을 제공하고 교육 현장을 개선할 수 있을 것으로 기대된다. 조음 정보를 제공함으로써 제2언어 습득의 효율성을 증진시킬 수 있음에도 불구하고, 지금까지는 실시간 분석 기술의 부재로 교육 현장에서 실제로 적용되기에는 어려움이 많았다. 본 연구가 개발하는 실시간 조음 예측기는 제2언어 교육 현장에 투입되어 조음의 시각적 정보를 더욱 적극적, 실용적으로 이용할 수 있는 기반을 마련할 것이다. 언어치료 현장에서도 실시간 조음 예측기의 효용성은 광범위하다. 언어병리학에서는 조음 장애를 가진 사람에게 정확한 조음 위치 정보를 반복적으로 제공하는 것이 환자의 조음 장애를 개선하는 것에 주목할 만한 영향을 끼쳤다는 점을 지적한다. 조음 데이터의 유용성은 청각 장애 환자에서도 공통적으로 드러났다. 이처럼 조음 위치에 대한 정보를 제공함으로써 언어 치료의 효율성이 획기적으로 개선될 수도 있다는 기대는 이전부터 존재하였다. 실시간 조음 예측기는 고가의 장비를 이용하였거나 실시간 분석이 불가능했던 기존 조음 정보 제공방식들의 시공간적, 경제적 제약을 획기적으로 극복하는 기술로, 언어 치료에 새로운 가능성을 제시한다.

연구요약
말소리의 음향 데이터로부터 조음 형태를 추정하는 speech inversion은 언어학, 공학, 교육, 의료 분야 등에 광범위하게 응용될 수 있다는 면에서 심층적인 연구를 수행할 만한 가치를 지닌다. 하지만 조음 데이터의 수집과 분석에 필요한 막대한 비용과 기술력 때문에 s ...

말소리의 음향 데이터로부터 조음 형태를 추정하는 speech inversion은 언어학, 공학, 교육, 의료 분야 등에 광범위하게 응용될 수 있다는 면에서 심층적인 연구를 수행할 만한 가치를 지닌다. 하지만 조음 데이터의 수집과 분석에 필요한 막대한 비용과 기술력 때문에 speech inversion에 대한 국내 연구는 전무후무하며 해외에서도 제한된 수준에 머물러 있는 실정이다. 본 연구팀은 수십년 간의 speech inversion에 대한 학문적 노하우, 즉 음성학을 넘어선 인접 학문인 생리학, 물리학, 심리학, 공학, 전산 과학에서의 높은 기술력을 축적한 미국 예일대-해스킨스 연구소의 연구력을 기반으로 이러한 한계를 극복하고자 한다.
본 연구는 영어 원어민 화자 57명이 101개의 문장을 발화한 것에 대한 음향 및 조음 정보를 담고 있는 미국 Wisconsin 대학의 X-ray Microbeam (XRMB) 조음 데이터베이스를 바탕으로 최신의 기계 학습 기술을 이용하여 speech inversion을 구현하고, 나아가 실시간 조음 예측기를 개발하여 교육과 의료 분야에서의 그 적용 가능성을 평가할 것이다. 본 연구팀은 파일럿 연구에서 XRMB 데이터 중 화자 1명의 음향 및 조음 데이터를 바탕으로 인공신경망(artificial neural network: ANN)이라는 기계 학습 기법을 통해 실시간 조음 예측 모델을 구축하였다.
이를 바탕으로 1년차 연구에서는 XRMB 데이터에 있는 여러 화자의 조음 및 음향 데이터를 기반으로 화자 독립적(speaker-independent)인 실시간 조음 예측기를 개발하는 것이 목표이다. 이를 위해서는 화자 간의 개인 차가 기계 학습 과정에 미치는 영향을 없애기 위한 데이터 표준화(normalization) 작업이 선행되어야 한다. 예를 들어, 구강 구조와 혀 길이 등 생리적인 차이나 발화 습관에 기인한 차이가 조음자의 위치 정보나 음향 데이터에 영향을 미치기 때문이다. 이러한 문제를 해결하기 위해서 다양한 방식의 표준화(화자 내, 화자 간, 조음기관 간)를 시도하고, 그 중 최적의 방식을 찾고자 한다.
데이터 표준화를 통한 전처리 과정 이후에는 사전학습(pre-training)을 거치지 않는 ANN과 사전학습을 거치는 DNN이라는 두 종류의 기계 학습 기법을 통해 speech inversion을 구현하고 그 성능을 비교할 것이다. 이 외에도 은닉층(hidden layer) 개수 및 학습률(learning rate) 등 기타 파라미터 변화로 인해 발생하는 성능 차이 또한 다각적으로 비교하고자 한다. 총 57명의 방대한 데이터를 모두 활용하여 일반화된 speech inversion 모델을 구축한 후에는, 음향 데이터로부터 조음 데이터를 실시간으로 재구성 할 수 있는 알고리즘을 첨가하여 연구 및 의료의 여러 분야에서 높은 활용도가 예상되는 실시간 조음 예측기를 개발할 것이다. 2년차 연구 기간에는 1년차에 완성한 실시간 조음 예측기의 응용에 대한 실험과 평가가 진행된다. 발화시 실시간으로 자가 피드백(biofeedback)이 가능하다는 점은 제2언어 교육과 의료 분야에 절실하게 필요한 기능이다. 교육 분야에서 실시간 조음 예측기는 효과적인 제2언어 발음 학습 뿐만 아니라 청해 및 발화 능력 등 복합적 언어 능력 향상에 기여할 수 있으며, 본 연구팀은 장단기적 실험을 통해 그 잠재적 기여도를 평가하고자 한다. 또한 청각 장애 및 조음 장애를 지닌 환자들을 대상으로 하는 언어 치료에 실시간 조음 예측기를 도입한 자가 모니터링 임상 실험을 진행하여 치료 양상과 효과를 평가할 것이다.
본 연구는 학문 간 융합의 필요성이 대두되고 있는 시대적 흐름에 부합하는 대표적 표본이다. 언어학, 생리학, 물리학, 기계공학, 심리학, 전산과학 등 인문학과 공학의 다양한 학문 분야를 넘나들 뿐 아니라 실용성까지 놓치지 않는 본 연구는 국내의 융합적 언어 연구를 선진적 수준으로 끌어올리고 진정한 융합형 인재를 양성할 수 있다는 데 의의가 있다.

결과보고시 연구요약문

국문
음향-조음 역변환(acoustic-to-articulatory inversion)이란 음향 정보(acoustic features)를 통해 조음점(articulators)을 역추적하는 방법으로 이론적, 실용적 측면에서 다양하게 활용될 수 있는 중요한 연구임에도 불구하고, 문제 자체의 비고유성(non-uniqueness)과 ...

음향-조음 역변환(acoustic-to-articulatory inversion)이란 음향 정보(acoustic features)를 통해 조음점(articulators)을 역추적하는 방법으로 이론적, 실용적 측면에서 다양하게 활용될 수 있는 중요한 연구임에도 불구하고, 문제 자체의 비고유성(non-uniqueness)과 비선형성(non-linearity)으로 인해 해결하기 어렵다는 단점을 갖는다. 본 연구에서는 이러한 음향-조음 역변환 문제를 해결하기 위해 선행연구에서 제시한 다양한 기계학습(machine learning) 방식을 참고하여 1개의 네트워크로 구성된 단일 기계학습 모델과, 2개의 네트워크로 구성된 복합 기계학습 모델을 제시하여 음향-조음 역변환 문제 해결에 가장 적합한 기계학습 모델을 알아보고자 한다.
본 실험에서는 단일 기계학습 모델을 DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), BRNN(Bidirectional RNN) 모델로 구성하여 음향 데이터를 가장 정확하게 학습하는 모델을 파악하고, 복합 기계학습 모델은 DRNN(DNN-RNN), DBRNN(DNN-BRNN), CBRNN(CNN-BRNN) 모델로 구성함으로써 앞 단 모델에서 음향 데이터의 특징을 가장 잘 추출하는 모델을 알아보고자 한다. 모델의 학습을 위해 mngu0 코퍼스의 음향 정보를 입력값(input)으로 삼고, EMA(electromagnetic articulography) 조음 정보를 목표값(target)으로 이용하여 전체 모델을 학습하였다.
훈련이 완료된 모델에 mngu0 코퍼스에서 제공하는 테스트 음향 정보를 넣어 조음점을 예측하였으며 그에 대한 RMSE(Root Mean Square Error)를 계산하였다. 단일 기계학습에서는 음향 데이터의 시간정보를 양방향으로 동시에 훈련하는 BRNN 모델(RMSE: 1.022mm)이 단방향 만으로 훈련하는 RNN 모델(RMSE: 1.126mm)보다 우수한 성능을 거두었으며, RNN 모델은 DNN 모델(RMSE: 1.140mm)보다 DNN 모델은 CNN 모델(RMSE: 1.194mm)보다 더 나은 성능을 보여주었다. 이는 음향-조음 역변환 문제를 다룰 때, 시간 정보의 학습이 매우 중요하다는 것을 의미한다. 복합 기계학습 모델에서는 CBRNN 모델(RMSE: 0.975mm)이 DBRNN 모델(RMSE: 1.011mm)보다 더 나은 성능을 보였는데 이는 CNN 모델의 음향 데이터 특징 추출 능력이 DNN 모델보다 탁월하다는 것을 의미하며, CNN 모델 자체의 부족한 시계열 음향 특징(temporal acoustic features)의 학습능력을 시계열 정보 학습에 뛰어난 BRNN 모델을 통해 극복하였다고 볼 수 있다.

영문
Acoustic-to-articulatory mapping, also known as speech inversion is a task that retrieves articulators’ movements from acoustic information and it is nontrivial due to its highly non-linear and non-unique nature of mapping human speech to a certain co ...

Acoustic-to-articulatory mapping, also known as speech inversion is a task that retrieves articulators’ movements from acoustic information and it is nontrivial due to its highly non-linear and non-unique nature of mapping human speech to a certain configuration of vocal track that generated the speech signal. Based on the previous studies, this paper proposes two types of machine learning architectures: one is single machine learning models structured with one network, and the other is mixed machine learning models structured with two networks and we will study the networks that gives the best performance on the speech inversion task.
In the experiment, mngu0 corpus providing acoustic signal and its matched articulatory pellet movement was employed to all proposed models. The single machine learning models including DNN(deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), and BRNN(bidirectional RNN) trained speech signal and the results were compared to see which models predicted the articulatory trajectory with high accuracy. The mixed machine learning models including DRNN(DNN-RNN), DBRNN(DNN-BRNN), and CBRNN(CNN-BRNN) were connected with two machine learning models and the first model working as a feature extractor was focused and evaluated to discover the model that extracted the speech features with high efficiency.
Provided test speech data from mngu0 corpus was applied to all trained models and RMSE(Root Mean Square Error) from each model was calculated to evaluate their performance. In the single machine learning models, BRNN learning the past and the future temporal information of the speech signal by simultaneously feeding the input in the forward and backward direction shows 1.022mm RMSE and it is lower than RNN’s(1.126mm RMSE) that learns only forward temporal information of acoustic data. Compared to DNN(1.140mm RMSE), and CNN(1.194mm RMSE) whose networks are unable to learn sequential speech information, BRNN still outperforms the other networks and it indicates that network’s ability to train temporal information in speech data is critical to speech inversion task. In the mixed machine learning models, CBRNN(0.975mm RMSE) achieves the lower RMSE than DBRNN’s(1.011mm RMSE) and it implies that CNN is superior in feature extraction to DNN. CNN itself, however, is insufficient to learn speech information but its excellent power of feature extraction derives the best performance on speech inversion by connecting it to BRNN.

연구결과보고서

초록
말소리, 즉 음성(speech)은 혀를 비롯한 여러 조음 기관(articulators)의 체계적이고 물리적인 움직임, 즉 ‘조음’(articulation)을 통해 만들어진다. 공학, 교육, 의료 등 다양한 분야에서 조음 연구의 중요성과 조음 정보의 유용성이 강조됨에도 불구하고, 비용과 기술의 ...

말소리, 즉 음성(speech)은 혀를 비롯한 여러 조음 기관(articulators)의 체계적이고 물리적인 움직임, 즉 ‘조음’(articulation)을 통해 만들어진다. 공학, 교육, 의료 등 다양한 분야에서 조음 연구의 중요성과 조음 정보의 유용성이 강조됨에도 불구하고, 비용과 기술의 문제로 인해, 대부분의 음성 연구는 음향 정보만을 이용한 연구에 국한되어 왔다. 말소리의 음향 정보(acoustic information)를 바탕으로 그 소리를 생성해 낸 조음 형태(articulatory configuration)를 역으로 재구성하는 기술을 ‘speech inversion’ 혹은 음향-조음 간 매핑(acoustic-to-articulatory mapping)이라고 하는데, 본 연구는 최신의 기계학습 알고리즘을 이용한 speech inversion 시스템 개발에 관한 연구이며, 나아가 교육과 의료분야에서의 그 잠재성을 제시하는 것을 목표로 한다. 조음 정보의 이용은 자동 음성 인식(automatic speech recognition; ASR)과 음성 합성(speech synthesis) 기술의 성능 향상에는 물론, 제 2언어 학습자를 위한 효율적인 발음 교육, 의료적 차원으로는 청력이나 뇌 기능, 발음 기관 상의 문제로 조음 장애를 보이는 환자들의 조음 치료에도 유용하게 이용되어 왔다. 하지만, 조음 정보는 구강 속에서 일어나므로 그 정보를 얻기 위해서는 높은 비용의 장비와 기술에 의존해야 한다. 최근 음성 공학과 기계학습의 기술 발달로 조음 정보는 음성의 음향적 정보로부터 어느 정도 추정이 가능하게 되었고 (speech inversion), 이를 이용하여 조음 형태를 시각화해 제시할 수 있게 되었다. 즉, EMA(electromagnetic articulography)와 같은 고가의 실험 장비 없이도 구강(vocal cavity)내 움직임들을 효과적으로 시각화할 수 있게 된다.
이러한 speech inversion 기술의 잠재적 가치에도 불구하고, 크게 세 가지의 난제가 존재한다. 첫째, 하나의 음향 파라미터셋(a set of acoustic parameters)에는 하나의 조음 형태가 대응되지 않고, 여러가지의 조음 형태가 대응될 수 있다는 것이다(‘one-to-many problem’). 예를 들어, 발화 중에는 휴지 구간(pause)이 존재할 수 있는데, 휴지 구간에도 조음기관들은 다양한 모양을 보일 수 있다. 예를 들어, ‘perfect memory’를 발화할 때 /t/는, 음향적으로는 실현되지 않지만, 실제 조음상에선 혀의 움직임이 관찰된다. 둘째, 음향과 조음 사이에는 비선형(non-liear)의 관계가 존재한다. 발화 중에 일어나는 조음동작들은 분절화할 수 없는 연속적인 움직임들의 시간적 중첩(temporal overlap)으로 구성된다. 하지만 음향에서는 조음의 연속성이 선형적으로 드러나지 않는다. 예를 들어, /s/를 만들어내기 위해 혀는 해당 조음 위치로 서서히 이동하게 되지만, 음향상에서 /s/는 연속적으로 실현되지 않고 어느 순간에 급격히 발생한다. 이러한 비선형성(non-linearity)은 음향과 조음의 매핑을 더욱 어렵게 만든다. 혀의 위치와 공명주파수(formant frequency)의 관계도 그러하다. 셋째, 동시조음(coarticulation)도 음향과 조음의 복합적인 관계를 보여준다. 즉, 조음은 연속성을 갖고 있기 때문에 조음동작들 간의 중복이 필연적으로 발생하게 된다. 하지만 동시조음이 발생할 때 음향상에서 이를 확인하는 것은 매우 힘들다. 본 연구는 speech inversion의 이러한 내재적 문제를 해결하고자 기계 학습(machine learning) 알고리즘 중 하나인 인공 신경망 모형을 적용하고자 한다. 본 연구에서의 인공 신경망(artificial neural network: ANN) 모형은 데이터를 기반으로 모델을 수립하며, 일대다 대응(one-to-many mapping), 즉 비고유하고(non-unique) 비선형적인(non-linear) 변수들 간의 관계를 포착하는 데 적합하다는 특징이 있다. 나아가, 최신의 기계학습의 알고리즘인 심층신경망(deep neural network: DNN)을 활용하여, 말소리의 음향 정보로부터 그러한 소리를 생성하는 원천으로서의 조음 양상을 수학적으로 재구하는 speech inversion을 모델링하고자 한다. 본 연구는 최신의 기계학습(machine learning) 알고리즘인 인공신경망(artificial neural network: ANN)과 심층신경망(deep neural network: DNN)을 활용하여 말소리의 음향 정보로부터 그 조음 형태를 재구성해 내는 speech inversion를 해결하고자 한다. 또, 세계 최초로 실시간 조음 예측기(real-time articulatory estimator)를 개발하여 영어 교육과 언어 치료 분야에서의 그 잠재적 유용성을 평가하고자 한다.

연구결과 및 활용방안
본연구는 네 가지 단일 기계학습 모델과 세 가지 복합 기계학습 모델을 이용하여 음향 정보를 통해 조음점을 역추적하는 speech inversion 실험을 진행하였으며 어떠한 모델이 speech inversion 문제를 가장 탁월하게 해결하는지 알아보고자 특징 추출과, 시계열 정보의 ...

본연구는 네 가지 단일 기계학습 모델과 세 가지 복합 기계학습 모델을 이용하여 음향 정보를 통해 조음점을 역추적하는 speech inversion 실험을 진행하였으며 어떠한 모델이 speech inversion 문제를 가장 탁월하게 해결하는지 알아보고자 특징 추출과, 시계열 정보의 훈련이라는 두 가지 관점에서 모델을 평가하였다. 올바른 특징 추출은 기계 학습 성능과 속도향상에 크게 기여하는데 ,이를 알아보고자 시계열 정보 훈련 전 특징 추출 층을 추가한 복합 기계학습 모델을 구성하여 실험을 진행하였다. DNN 모델을 통해 특징 추출을 진행한 DRNN 모델은 1.148mm의 RMSE를 달성하였으며 이는 단순 RNN 모델을 사용하였을 때 보다 약간의 성능 향상을 보여주었지만, DBRNN 모델이 달성한 1.148mm의 RMSE는 BRNN 모델을 단독으로 사용한 경우의 1.022mm RMSE보다 성능이 떨어지는 경향을 보여주었다. 따라서 DNN 모델을 통한 앞 단의 음향 정보 특징 추출은 이후 진행되는 훈련 결과에 커다란 영향을 줄 수 있다고 보기 어렵다. 음성데이터나 이미지 데이터 특징 추출에 높은 성능을 나타내는 1-10CNN 모델이 단독으로 사용된 모델의 최적화 RMSE는 1.194mm로 타 모델에 비해 높은 RMSE를 보여줄 뿐 아니라 이를 달성한 세대수 또한 250으로 여타 모델에 비해 적지 않다. 따라서 CNN 모델이 speech inversion 문제를 접근할 때 음향 정보의 특징 추출 도구로서 부적합한 모델로 보일 수도 있다. 그러나 이러한 CNN 모델이 복합 모델로서 BRNN 모델과 함께 훈련을 진행할 때는 0.975mm RMSE로 가장 월등한 성능을 거두었는데, 이는 특징 추출을 DNN 모델로 진행한 DBRNN 모델의 RMSE보다 0.035mm 낮은 수치이다. 이를 통해 볼 때 CNN 모델이 DNN 모델에 비해 음향 정보의 특징은 다소 정확하게 추출하지만 음향의 시계열 정보를 홀로 학습하여 조음 예측 문제를 해결하기에는 다소 어려운 점이 있다고 할 수 있다. 따라서 CBRNN 모델은 이러한 CNN 모델의 특징 추출 장점은 최대한 살려 음향 정보의 특징을 올바르게 추출하고, 시계열 정보 훈련에 취약하다는 단점을 시계열 정보 훈련에 강한 BRNN 모델과 결합하여 보완함으로써 타 모델들에 비해 speech inversion 문제를 더 정확하게 다룬다고 할 수 있다. 시간 정보를 담고 있는 음향 정보를 얼마나 잘 훈련하였는지가 모델의 훈련성과를 가를 수 있기에 단일 기계학습 모델들 중에 어떠한 모델 구조가 시계열 정보를 가장 잘 훈련하였는지 알아보고자 한다. 본실험에서 이러한 시계열 정보를 가장 잘 훈련한 단일 기계학습 모델은 RMSE가 1.022mm까지 떨어진 BRNN 모델로 같은 시계열정보 훈련 모델인 basicRNN 모델(RMSE: 1.191mm)과 lstmRNN 모델(RMSE: 1.176mm) 그리고 gruRNN 모델(RMSE: 1.126mm) 보다 더 좋을 뿐 아니라, 비시계열 정보 훈련 모델인 DNN, CNN 모델과 비교해 보더라도 더 좋은 성능을 보여준다. 따라서 정방향의 정보만 학습하는 RNN 계열의 모델보다 양방향의 정보를 동시에 학습하는 BRNN 모델이 음향 정보를 제대로 훈련한다고 볼 수 있다. 또한 세가지 형태의 RNN 모델 은닉층 cell의 성능을 비교한 실험에서 GRU를 사용한 gruRNN 모델이 1.126mm의 RMSE로 RNN 모델 중 가장 낮으면서 동시에 이를 달성한 세대수도 100으로 가장 적었는데, 이는 GRU가 타 은닉층 cell 구조보다 더 빠르고 효과적으로 시계열 정보를 학습한다고 볼 수 있다. DNN모델의 경우 시간 정보를 추가하여 훈련 할수록 RMSE가 점차 낮아지는 것을 확인하였나 그럼에도 불구하고 시계열 정보를 담고 있는 음향 정보를 훈련하기 위해서는 DNN 모델 구조보다 RNN모델 구조가 더 뛰어나다고 할 수 있겠다. 기존 연구들은 실시간 피드백을 주기보다 사후 피드백을 주는 데에 초점을 맞추고 있거나, 실시간 피드백을 위해선 초고가의 장비를 사용해야 한다는 공간적, 시간적 제약이 있었다. 본 연구팀의 연구 역량과 기술력을 통해 1,2차년 동안 극대화된 정확도를 가진 본 연구의 시스템을 실시간 웹모델로까지 구축을 완성한 상태이다. 기존 연구들과는 달리 거의 무료에 가까운 실시간 조음 피드백 시스템을 제2언어 학습과 언어 치료 분야에 보급할 계획이고, 향후 모바일폰의 앱으로 구현할 예정이다

색인어
조음 음향 역변화, 조음 예측기, 인공신경망, 딥러닝

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 음성학(언어학)
2순위 : 인문학 > 영어와문학 > 영어학 > 음성/음운론(영어학)
3순위 : 인문학 > 영어와문학 > 영어교육

연구성과물 목록