보고서 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10006727&local_id=10012015

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10006727&local_id=10012015

자연어 처리를 위한 한국어와 영어의 대용어 분석 시스템 개발

이 보고서는 한국연구재단(NRF, National Research Foundation of Korea)이 지원한 연구과제( 자연어 처리를 위한 한국어와 영어의 대용어 분석 시스템 개발 | 2004 년 신청요강 다운로드

| 이선희(The Ohio State Univ.)

) 연구결과물 로 제출된 자료입니다.

한국연구재단 인문사회연구지원사업을 통해 연구비를 지원받은 연구자는 연구기간 종료 후 6개월 이내에 결과보고서를 제출하여야 합니다.(*사업유형에 따라 결과보고서 제출 시기가 다를 수 있음.)

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

연구과제번호	A00098
선정년도	2004 년
과제진행현황	종료
제출상태	재단승인
등록완료일	2006년 07월 28일
연차구분	결과보고
결과보고년도	2006년

결과보고시 연구요약문

국문
이 연구는 한국어와 영어에 나타나는 대용어의 기능과 그 의미 복원 과정을 처리하는 의미 통사 제약들을 일반화하고 전산적으로 구현함으로써 영대용어를 다루는 효율적 알고리즘을 구현하는 것을 연구 목적으로 한다. 이미 잘 알려진 바와 같이 한국어는 주어나 목적어 ...

이 연구는 한국어와 영어에 나타나는 대용어의 기능과 그 의미 복원 과정을 처리하는 의미 통사 제약들을 일반화하고 전산적으로 구현함으로써 영대용어를 다루는 효율적 알고리즘을 구현하는 것을 연구 목적으로 한다. 이미 잘 알려진 바와 같이 한국어는 주어나 목적어를 비롯한 문장 성분들이 자유로이 생략되는 특이한 유형의 언어로 분류된다. 이러한 생략 현상은 특히 구어체의 한국어에 매우 빈번하게 나타난다. 그 예로 영어의 경우 "Did you see it "과 같은 문장에서 대명사로 실현된 주어와 목적어는 한국어에서는 "봤니 "와 같이 영형태로 표현된다. 기존의 연구들에서는 영어의 대명사와 한국어의 영형태 사이의 연관성을 주목하고 한국어의 영형태를 "영대명사" (zero pronoun) 혹은 "영조응사" (zero anaphor) 등으로 분류해 왔다. 이 연구에서는 영형태를 "영대용어"라는 용어로 지칭하며 영대용어 및 대명사의 의미 해석을 위한 알고리즘과 그 분석 도구들의 개발을 목표로 한 전산언어학적 접근을 시도한다.

영대용어의 의미 분석은 언어학적인 측면에서 주어진 문장의 의미와 구조를 파악하기 위한 필수적 과정이다. 컴퓨터로 하여금 인간의 언어를 처리하도록 하는 자연어 처리(natural language processing) 분야에서도 영대용어가 가리키는 의미 정보를 찾는 일은 매우 중요한다. 왜냐하면 생략된 요소들의 의미를 복원하지 않고서 대화 단위들을 처리하는 일은 거의 불가능하기 때문이다. 한영/영한의 기계 번역에 있어서도 영대용어의 전산적 처리를 해결해야 할 우선 과제이며, 인간과 컴퓨터의 의사 소통에 필요한 대화에 필요한 대화 시스템을 구축하고 컴퓨터가 인간의 언어를 입력 받아 처리하는 자연어 이해(natural language understanding) 분야에서도 핵심 요소이다.

이 연구는 한국어와 영어의 대명사 및 영대용어와 관련한 세가지 소규모 프로젝트들을 포함한다. 첫번째 프로젝트에서 우리는 최근까지 개발된 한국어 주석 말뭉치 자료들을 중심으로 영조응사와 관련한 연구 가능성을 고찰하고 대용어 태깅에 필요한 언어학적 요인들과 체계적 대용어 태깅 시스템을 제시하였다. 두번째 프로젝트에서는Optimality Theor를 배경으로 제약에 기반하여 구현한 영어 대명사 분석 알고리즘들을 한국어의 영대용어 처리에 맞도록 관련 제약을 더하여 수정하였다. 이 연구는 다양한 대명사 분석 알고리즘의 구현과 이들을 활용한 한국어의 영대용어 처리 가능성을 고찰한다는 데 의의를 두고 있다.

마지막 프로젝트에서는 영어와 한국어에서 명사가 아닌 문장이나 동사구를 지시하는 대용어의 의미 분석 문제를 다루었다. 우리는HPSG 이론의 언어 자질을 바탕으로 개발된 TRALE 시스템의 구문 분석 결과를 활용함으로써 명사가 아닌 절 또는 동사구를 선행사로 하는 대명사의 의미 분석이 용이해짐을 밝혔다. 특히 이 연구는 주로 명사를 선행사로 갖는 대용어에 국한된 기존의 대용어 연구에서 한발짝 앞선 것이라 사려된다.

주석 말뭉치의 대용어 태깅 및 대용어 처리 알고리즘의 전산학적 구현과 평가는 서로 밀접한 관련을 맺고 있는 연구 과제들로 영어와 한국어의 대용어 연구에 중요한 부분을 차지한다. 이 연구를 통해 구현된 전산학적 도구와 언어학적 분석은 이제까지의 영어와 한국어의 대용어 연구에 새로운 시각과 해결 방안을 제시함과 더불어 이 분야의 더욱 활발한 연구를 북돋울 것이라 기대된다.

영문
In this study, we provide a generalization of semantic and syntactic constraints that retrieve meaning of an anaphor in Korean and English. We also implement different algorithms dealing with anaphor resolution and evaluate them. As already known, Kor ...

In this study, we provide a generalization of semantic and syntactic constraints that retrieve meaning of an anaphor in Korean and English. We also implement different algorithms dealing with anaphor resolution and evaluate them. As already known, Korean belongs to a unique language group that allows frequent dropping of subject and object. The ellipsis of an argument commonly happens in the spoken Korean. For example, while a subject and an object cannot be dropped in an English sentence "Did you see it ", they need to be dropped in a Korean example, ‘poassni ’ The previous research have focused on relevance between English pronouns and Korean zero forms and classified Korean zero forms as zero pronouns or zero anaphors. In this study, we name these zero forms as zero anaphors and take a computational approach to develop resolution algorithms of zero anaphors as well as pronouns and provide computational tools dealing with them.

Semantic analysis of zero anaphor is a crucial process in order to analyze meaning and structure of a sentence. In the field of natural language processing that makes computers process human language, it is an important task to find the meaning of an anaphor. In addition, processing discourse fragments cannot be done without recovering the meaning of dropped elements. In machine translation of English-Korean or Korean-English, the computational process of zero anaphor is a prerequisite task to be solved. Anaphor resolution is also a critical component of dialog systems in natural language understanding.

This study is composed of three research projects. In the first project, we examine tagged corpra to facilitate the anaphor resolution process. By evaluating existing tagged corpora such as treebanks in Korean, we provide useful linguistic properties for anaphor annotation and a new scheme for zero anaphors. In the second project, we implement anaphor resolutions algorithms according to Optimality Theory suggested by Beaver (2000) and revise relevant linguistic constraints to facilitate the process for Korean zero anaphors. This project suggests a possibility of zero anaphor processing in Korean by using different algorithms of pronoun resolution and provide evaluation of them.
In the last project, we deal with anaphors referring to an event or a proposition instead of nouns. By using TRALE system, which is based on HPSG and provides minimal recursion semantics, we showed that meaning of non-nominal anaphors can be correctly recovered. This research shows that more sophisticated linguistic features can be used for non-nominal anaphors, which have been quite ignored from previous discussion of anaphor resolution.

Anaphor annotations in tagged corpus like treebanks and computational implementation of different anaphor resolution algorithms are closely connected tasks and take an important part in studying anaphors both in Korean and English. We expect that computational tools and linguistic analysis developed in this study will provide a new perspective and solutions in the study of anaphors in Korean and English and furthermore, they will promote more active research on this subject.

연구결과보고서

초록
이 연구는 한국어와 영어에 나타나는 대용어의 기능과 그 의미 복원 과정을 처리하는 의미 통사 제약들을 일반화하고 전산적으로 구현함으로써 영대용어를 다루는 효율적 알고리즘을 구현하는 것을 연구 목적으로 한다. 이미 잘 알려진 바와 같이 한국어나 일본어와 같은 ...

이 연구는 한국어와 영어에 나타나는 대용어의 기능과 그 의미 복원 과정을 처리하는 의미 통사 제약들을 일반화하고 전산적으로 구현함으로써 영대용어를 다루는 효율적 알고리즘을 구현하는 것을 연구 목적으로 한다. 이미 잘 알려진 바와 같이 한국어나 일본어와 같은 언어는 담화 상의 많은 생략 현상들을 포함한다. 이러한 생략 현상은 구어체의 경우 매우 흔하다. 그 예로 영어의 경우 "Did he leave "과 같은 문장에서 대명사로 실현된 주어는 한국어에서 "떠났니 "와 같이 영형태로 표현된다.

언어학적인 측면에서 문장의 의미와 구조를 파악하기 위해서는 영대용어가 가리키는 지시 대상이 무엇인지를 찾는 일이 중요하다. 컴퓨터로 하여금 인간의 언어를 처리하도록 하는 자연어 처리(natural language processing) 분야에서도 영대용어가 가리키는 의미 정보를 찾는 일은 매우 중요한다. 왜냐하면 생략된 요소들의 의미를 복원하지 않고서 담화를 처리하는 일이 거의 불가능하다기 때문이다. 한영/영한의 기계 번역에 있어서도 영대용어의 전산적 처리를 해결해야 할 우선 과제이며, 인간과 컴퓨터의 의사 소통에 필요한 대화에 필요한 대화 시스템을 구축하고 컴퓨터가 인간의 언어를 입력 받아 처리하는 자연어 이해(natural language understanding) 분야에서도 핵심 요소이다.

이 연구는 한국어와 영어의 대명사 및 영대용어와 관련한 세가지 소규모 프로젝트들을 포함한다. 첫번째 프로젝트에서는 영대용어 분석 시스템 개발과 관련된 대규모의 주석 말뭉치 자료 활용에 중점을 둔다. 우리는 최근까지 개발된 한국어 주석 말뭉치 자료들을 중심으로 영조응사와 관련한 연구 가능성을 고찰하고 조응사 태깅에 필요한 언어학적 요인들과 체계적 시스템을 제시하는 작업을 진행하였다. 두번째 프로젝트는 언어학적으로 일반화된 제약들의 전산학적으로 코딩을 통해 실체화하며, 다른 사용자들이 접근가능하면서 다른 프로그램의 일부로 쉽게 포함될 수 있는 객체지향부문(object-oriented component)으로서의 소프트웨어를 개발에 주된 연구 목적이 있다. 마지막 프로젝트에서는 영어와 한국어에서 명사가 아닌 문장이나 동사구를 지시하는 경우를 고찰하고 그 의미 분석 알고리즘 구현을 위한 전산언어학적 도구의 개발을 시도하였다. 이러한 접근은 언어학적 정보를 활용함으로써 영대용어의 의미 분석의 정확도를 향상시키고 새로운 전산언어적 도구들을 개발하는
데 활용될 것이다. 이는 언어학적 가치를 넘어서 자연어 처리나 정보 검색, 기계 번역 및 대화 시스템 개발 등에 필수 과제의 하나인 대명사및 영대용어 의미 분석에 대한 새로운 해결 방안을 제시할 것으로 기대된다.

연구결과 및 활용방안
이 연구의 결과는 다음과 같이 요약된다.

[[ 구문 말뭉치 구성에서 영대용어 태깅의 중요성]]: 이제까지 개발된 대표적 한국어 구문 분석 말뭉치로는 한국어 Penn Treebank와 세종 Treebank가 있다. 그런데 펜트리 뱅크의 경우 영대용어의 태깅이 이루어진데 반해 세 ...

이 연구의 결과는 다음과 같이 요약된다.

[[ 구문 말뭉치 구성에서 영대용어 태깅의 중요성]]: 이제까지 개발된 대표적 한국어 구문 분석 말뭉치로는 한국어 Penn Treebank와 세종 Treebank가 있다. 그런데 펜트리 뱅크의 경우 영대용어의 태깅이 이루어진데 반해 세종 트리뱅크에서는 전혀 이루어지고 있지 않다. 우리는 고차원의 자연어 처리 과정에서 영대용어 정보가 빠져서는 안된다는 점에 합의하고 이를 위해 구문분석 말뭉치에서 영대용어가 가지는 중요성을 재고찰하고 이를 중심으로 한국어의 영대용어 태깅의 새로운 시스템을 제시하였다. 이 결과는 2005년 10월 제주도에서 열린 제 2회 International Joint Conference of Natural Language Processing(IJCNLP) 에서 연구 논문으로 발표되었다. 또한 이 논문은Springer 출판사에서 발간하는Lecture Note in Computer Science의 일환인 Natural Language Processing (2005) 에 개재되었다.

[[ Optimality Theory에 기반한 대명사 알고리즘들의 구현과 평가 ]]: Beaver(2000)에서는 영어의 대명사 분석의 대표적 알고리즘의 하나인 센터링 알고리즘의 각 규칙들을 optimality theory에 기반하여 여러 제약들로 나누어 구현할 수 있다는 가능성을 제시한 바 있다. 이를 바탕으로 지도 교수인 Donna Byron은 Beaver의 주장이 전산적으로 구현 가능한 것인지를 테스트한 바 있으며 그 결과는 2004년 에서 연구 논문으로 보고 되었다. 이러한 기존 연구를 확장하여 우리는 한국어의 영대용어 분석에도 이러한 Optimality 이론에 바탕을 두고 구현된 제약들이 적용하는한 것인지를 고찰하였다. 그 결과 한국어의 영대용어도 센터링 알고리즘의 적용이 가능하며 상당한 정도의 정확도(87%)를 가지는 것으로 평가되었다. 이는 2006년 학술지 Traitement Automatique des Langues (TAL)의 논문으로 개재되었다.

[[HPSG 구문 분석 결과를 활용한 대명사의 의미 분석]]: 이 연구 작업을 거치면서 우리는 일부 의미 자질만을 가져와 독립된 구문 분석 시스템에 통합하기보다는 HPSG 이론을 배경으로 구축된 구문 분석 결과 전체를 가져와 영어의 대명사 분석 시스템을 구축하는 것이 기존의 시스템들보다 훨씬 효율적 결과를 가져올 것임을 확신하게 되었다. 이는 HPSG의 구문 분석의 결과가 문장을 구성하는 성분의 어휘 의미와 문장 전체의 의미를 자질 구조체 (feature structure)로 표상하므로, 문장 성분들 사이의 의미 관계를 파악이 용이하기 때문이다.
전산적으로 구축된 HPSG 문법 구현 시스템으로는 Stanford 언어학과에서 개발한 LKB시스템과 오하이오 주립대 언어학과의 TRALE 시스템이 있다. 우리는 두 시스템 중 디버깅이 용이한 TRALE 파서를 활용하고 그 분석 결과에 수정을 가하여 동사구나 명제를 선행사로 가지는 대명사의 의미 분석 가능성을 제시하였다. 이 연구 성과는 2006년 7월 아일랜드에서 열린 제 2회 Contraint in Discourse 학회에서 보고되었으며 현재 학술지 연구 논문을 준비 중에 있다.

색인어
구문 분석, 기계 번역, 담화 구조,대명사, 대화 시스템, 말뭉치, 알고리즘, 영대용어, 의미, 의미 분석, 센터링 이론, 자연어 처리, 자질, 주석, 통사, HPSG

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 전산언어학
2순위 : 인문학 > 한국어와문학 > 국어학 > 국어정보학
3순위 : 인문학 > 한국어와문학 > 국어학 > 국어사전학

이 보고서에 대한 디지털 콘텐츠 목록

본 자료는 원작자를 표시해야 하며 영리목적의 저작물 이용을 허락하지 않습니다.
또한 저작물의 변경 또는 2차 저작을 허락하지 않습니다.