본 과제는 한, 영, 중, 일의 4개국어 어휘 데이터베이스 구축을 위한 방법론을 연구하고 다국어 어휘 데이터베이스의 효율적 모형을 개발할 것을 목표로 한다. 인터넷의 발달을 통해 국제화, 정보화가 급속도로 이루어지고 있는 시점에서 언어·지식·정보의 국제적 ...
본 과제는 한, 영, 중, 일의 4개국어 어휘 데이터베이스 구축을 위한 방법론을 연구하고 다국어 어휘 데이터베이스의 효율적 모형을 개발할 것을 목표로 한다. 인터넷의 발달을 통해 국제화, 정보화가 급속도로 이루어지고 있는 시점에서 언어·지식·정보의 국제적 소통에 효과적으로 대응하기 위해서는 다국어 어휘 데이터베이스에 관한 방법론의 개발과 실제적 구축·응용이 긴요하다. 또한 한국학의 국제화를 위해서도 전문용어의 다국어 시소러스 외에 일반 어휘들의 다국어 정보자원이 요구된다. 본 과제는 바로 이러한 양면을 위해 기본적인 토대를 마련하기 위한 것이다. 본 과제는 우선 다국어 어휘데이터베이스의 기반이 되는 어휘 의미 정보를 표상하는 방법에 관한 연구를 수행하고, 거기에 한국어의 특성을 살릴 수 있는 의미 표상의 방법과 중간언어 개념 지표에 관한 연구를 반영하고자 한다. 또한 워드넷 및 유로워드넷의 정보들을 연결할 수 있는 방법도 고려할 것이다. 예를 들면, 한국어나 영어를 중심에 두고 나머지 언어들을 관련시키는 방법과 중간 개념 지표(Iter-Lingual-Index: ILI)를 상정하고 이를 이용하여 4개국어의 어휘 의미를 연결하는 방법을 중점적으로 연구할 것이다. 이러한 과제에는 또한 은유의 어휘화 작업도 포함될 것이다. 은유 혹은 관용 표현은 문화권 및 언어마다 다르게 나타날 수 있으므로 다국어 어휘 데이터베이스 설계에서 이 문제가 비중 있게 다루어질 필요가 있다. 외국에서는 코퍼스(corpus)와 어휘 데이터베이스를 중요한 언어 자원으로 인식하여 워드넷과 유로워드넷을 개발하였으며 지속적인 연구 및 연구성과의 확충이 이루어지고 있다. 국내의 경우, 국어 어휘의 정보를 정밀하게 전자사전 형태로 구축하고자 하는 사업이 진행중이며 한국어 워드넷을 시험적으로 구축하려는 시도나 다국어 전자 사전을 구축하고자 하는 시도가 있으나, 아직 기초적인 연구 수준을 벗어나고 있지는 못하다. 본 과제의 연구가 성공적으로 수행되면 다국어 어휘데이터베이스 구축을 위한 표준적인 모형이 개발될 것이고 이 모형은 다국어 정보검색과 기계 번역을 위해 활용될 수 있을 것이다. 특히 다국어 어휘데이터베이스 연구에 은유의 사전화 작업이 적용되면, 전산언어학적 언어 연구의 역량을 높일 수 있을 뿐 아니라, 각종 언어정보 처리를 위해 진일보한 언어 자원 구축의 기반을