말소리, 즉 음성(speech)은 혀를 비롯한 여러 조음 기관(articulators)의 체계적이고 물리적인 움직임, 즉 ‘조음’(articulation)을 통해 만들어진다. 공학, 교육, 의료 등 다양한 분야에서 조음 연구의 중요성과 조음 정보의 유용성이 강조됨에도 불구하고, 비용과 기술의 ...
말소리, 즉 음성(speech)은 혀를 비롯한 여러 조음 기관(articulators)의 체계적이고 물리적인 움직임, 즉 ‘조음’(articulation)을 통해 만들어진다. 공학, 교육, 의료 등 다양한 분야에서 조음 연구의 중요성과 조음 정보의 유용성이 강조됨에도 불구하고, 비용과 기술의 문제로 인해, 대부분의 음성 연구는 음향 정보만을 이용한 연구에 국한되어 왔다. 말소리의 음향 정보(acoustic information)를 바탕으로 그 소리를 생성해 낸 조음 형태(articulatory configuration)를 역으로 재구성하는 기술을 ‘speech inversion’ 혹은 음향-조음 간 매핑(acoustic-to-articulatory mapping)이라고 하는데, 본 연구는 최신의 기계학습 알고리즘을 이용한 speech inversion 시스템 개발에 관한 연구이며, 나아가 교육과 의료분야에서의 그 잠재성을 제시하는 것을 목표로 한다. 조음 정보의 이용은 자동 음성 인식(automatic speech recognition; ASR)과 음성 합성(speech synthesis) 기술의 성능 향상에는 물론, 제 2언어 학습자를 위한 효율적인 발음 교육, 의료적 차원으로는 청력이나 뇌 기능, 발음 기관 상의 문제로 조음 장애를 보이는 환자들의 조음 치료에도 유용하게 이용되어 왔다. 하지만, 조음 정보는 구강 속에서 일어나므로 그 정보를 얻기 위해서는 높은 비용의 장비와 기술에 의존해야 한다. 최근 음성 공학과 기계학습의 기술 발달로 조음 정보는 음성의 음향적 정보로부터 어느 정도 추정이 가능하게 되었고 (speech inversion), 이를 이용하여 조음 형태를 시각화해 제시할 수 있게 되었다. 즉, EMA(electromagnetic articulography)와 같은 고가의 실험 장비 없이도 구강(vocal cavity)내 움직임들을 효과적으로 시각화할 수 있게 된다.
이러한 speech inversion 기술의 잠재적 가치에도 불구하고, 크게 세 가지의 난제가 존재한다. 첫째, 하나의 음향 파라미터셋(a set of acoustic parameters)에는 하나의 조음 형태가 대응되지 않고, 여러가지의 조음 형태가 대응될 수 있다는 것이다(‘one-to-many problem’). 예를 들어, 발화 중에는 휴지 구간(pause)이 존재할 수 있는데, 휴지 구간에도 조음기관들은 다양한 모양을 보일 수 있다. 예를 들어, ‘perfect memory’를 발화할 때 /t/는, 음향적으로는 실현되지 않지만, 실제 조음상에선 혀의 움직임이 관찰된다. 둘째, 음향과 조음 사이에는 비선형(non-liear)의 관계가 존재한다. 발화 중에 일어나는 조음동작들은 분절화할 수 없는 연속적인 움직임들의 시간적 중첩(temporal overlap)으로 구성된다. 하지만 음향에서는 조음의 연속성이 선형적으로 드러나지 않는다. 예를 들어, /s/를 만들어내기 위해 혀는 해당 조음 위치로 서서히 이동하게 되지만, 음향상에서 /s/는 연속적으로 실현되지 않고 어느 순간에 급격히 발생한다. 이러한 비선형성(non-linearity)은 음향과 조음의 매핑을 더욱 어렵게 만든다. 혀의 위치와 공명주파수(formant frequency)의 관계도 그러하다. 셋째, 동시조음(coarticulation)도 음향과 조음의 복합적인 관계를 보여준다. 즉, 조음은 연속성을 갖고 있기 때문에 조음동작들 간의 중복이 필연적으로 발생하게 된다. 하지만 동시조음이 발생할 때 음향상에서 이를 확인하는 것은 매우 힘들다. 본 연구는 speech inversion의 이러한 내재적 문제를 해결하고자 기계 학습(machine learning) 알고리즘 중 하나인 인공 신경망 모형을 적용하고자 한다. 본 연구에서의 인공 신경망(artificial neural network: ANN) 모형은 데이터를 기반으로 모델을 수립하며, 일대다 대응(one-to-many mapping), 즉 비고유하고(non-unique) 비선형적인(non-linear) 변수들 간의 관계를 포착하는 데 적합하다는 특징이 있다. 나아가, 최신의 기계학습의 알고리즘인 심층신경망(deep neural network: DNN)을 활용하여, 말소리의 음향 정보로부터 그러한 소리를 생성하는 원천으로서의 조음 양상을 수학적으로 재구하는 speech inversion을 모델링하고자 한다. 본 연구는 최신의 기계학습(machine learning) 알고리즘인 인공신경망(artificial neural network: ANN)과 심층신경망(deep neural network: DNN)을 활용하여 말소리의 음향 정보로부터 그 조음 형태를 재구성해 내는 speech inversion를 해결하고자 한다. 또, 세계 최초로 실시간 조음 예측기(real-time articulatory estimator)를 개발하여 영어 교육과 언어 치료 분야에서의 그 잠재적 유용성을 평가하고자 한다.