연구과제 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10014011&res=y

말뭉치 자료 조사를 통한 한국어 ‘것’ 구문에 대한 통사•의미구조 분석 및 전산학적 구현

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

사업명	기초연구지원인문사회& #40;창의주제연구& #41;
연구과제번호	2007-321-A00079
선정년도	2007 년
연구기간	2 년 (2007년 08월 01일 ~ 2009년 07월 31일)
연구책임자	김종복
연구수행기관	경희대학교
과제진행현황	종료
공동연구원 현황	PeterSells(Stanford University) 강우순(경희대학교) 양재형(강남대학교)

과제신청시 연구개요

연구목표
본 연구는 여러 말뭉치 조사 등에서 아주 높은 빈도수를 보여주는 ‘것’구문에 대한 경험적 연구를 바탕으로 이들 구문에 나타나는 통사, 의미, 화용 등 문법 정보간의 상호작용을 반영하는 이론을 개발하는데 1차적인 목적을 두고 있다. 경험적 연구 대상의 목표 문장은 ...

본 연구는 여러 말뭉치 조사 등에서 아주 높은 빈도수를 보여주는 ‘것’구문에 대한 경험적 연구를 바탕으로 이들 구문에 나타나는 통사, 의미, 화용 등 문법 정보간의 상호작용을 반영하는 이론을 개발하는데 1차적인 목적을 두고 있다. 경험적 연구 대상의 목표 문장은 세종말뭉치에서 찾을 수 있는 약 3만의 ‘것’을 포함한 문장 중 임의로 추출한 1만 문장이다. 본 연구의 2차적 목표는 이러한 경험적 분석을 토대로 개발한 수학적으로 엄밀한 형식문법이론을 전산언어학적으로 구현하여 기계번역 등과 같이 그 응용 가능성을 찾아보는데 있다.

연구요약
본 연구의 연구대상은 지금까지 연구된 ‘것’에 대한 문헌을 조사 연구하고 여기서 논의되고 있는 형태, 통사, 의미, 화용적 속성에 따라 ‘것’ 구문을 분류한다. 또한 세종 말뭉치 분석을 통해서 '것'구문에 대한 유형별 조사 검토한다. 특히 '것' 포함된 34,254 문장 중 ...

본 연구의 연구대상은 지금까지 연구된 ‘것’에 대한 문헌을 조사 연구하고 여기서 논의되고 있는 형태, 통사, 의미, 화용적 속성에 따라 ‘것’ 구문을 분류한다. 또한 세종 말뭉치 분석을 통해서 '것'구문에 대한 유형별 조사 검토한다. 특히 '것' 포함된 34,254 문장 중 1만 문장과 ‘것’에 관한 문헌들에서 논의하고 있는 ‘것’ 관련 문장들이 가지는 ‘것’이 어떠한 통사, 의미, 화용적 속성을 가지고 사용되고 있는지 조사, 연구한다. 본 연구에서 경험적 조사를 통해 얻은 연구 결과를 형식화 하기 사용할 기본적 이론은 전산학적 응용을 목표로 개발된 제약기반이론인 HPSG이다. 문법 정보간의 제약을 중요시 하는 HPSG는 이미 전산언어학적 응용을 위한 영어, 일본어, 독일어, 불어 등 상당 수 언어의 문법구축에 사용되고 있고 그 효율성은 여러 연구를 통해서 검증되었다. HPSG는 수학적 명시성과 전산언어학적 응용성을 문법 기술의 중요한 척도로 삼고 있다. 즉, 추상성이나 문법적 조작보다는 기술적 정확성을 일차 목표로 하고 있기 때문에 본 연구 과제에 가장 적합한 언어이론이다. 세종 말뭉치에서 분석, 분류된 ‘것’ 구문은 단순한 구문에 대한 연구를 시작으로, 보다 복잡 난해한 ‘것’ 구문에 대한 연구로 진행한다. 특히 본 연구가 목표로 삼고 있는 주요 ‘것’구문은 통사, 의미, 화용적으로 가장 난해한 ‘것’ 분열문(cleft), ‘것’ 관계절과 유사구문, 그리고 ‘것’ 명사보문 구조 들이다. 기존 문헌 및 세종 말뭉치에서 가장 많이 찾아 볼 수 있는 유형들이다. 본 연구는 이들 '것' 구문들이 가지고 있는 통사, 의미, 화용적 정보에 대한 심층있는 연구를 세종 말뭉치에 사용된 실제 언어자료들을 통해서 규명한다. 구축된 ‘것’ 구문에 대한 형식 문법을 구현할 기본적인 시스템은 제약기반 언어 체계의 문법적 구현을 위한 응용 환경을 가지고 있는 LKB (Linguistic Knowledge Building) 시스템이다. 이 시스템은 미국 스탠포드대학 CSLI 연구팀들이 개발하여 ERG(English Resource Grammar) 구현을 위해 적용되고 있다. 효율적 구문분석 및 생성, 그리고 평가 체계도 가지고 있고, 개발에 더욱 박차를 가하고 있다. 본 연구는 이러한 시스템에 개발한 '것' 분석을 구현하여 분석의 타당성을 검증한다.

한글키워드
기계번역,제약기반,관계절,명사 보문절,내재핵어 관계절,분열절,자질구조,유형위계,경험적 연구,의미분석,구문분석,한국어구구조문법,문법상호작용,형식문법,'것',전산학적 구현,세종말뭉치

영문키워드
constraint-based grammar,Korean phrase structure grammar,LKB (Linguistic Knowledge Building) system,computational implementation,internally headed relative clause,cleft,wh-cleft,information packaging,Sejong Corpus,corpus,empirical research,multiple inheritance hierarchy,typed feature structure,inverted wh-cleft,it-cleft,nominalization,relative clause,Minimal Recursion Semantics,HPSG,grammatical interfaces

결과보고시 연구요약문

국문
본 연구의 연구대상은 지금까지 연구된 ‘것’에 대한 문헌을 조사 연구하고 여기서 논의되고 있는 형태, 통사, 의미, 화용적 속성에 따라 ‘것’ 구문을 분류한다. 또한 세종 말뭉치 분석을 통해서 '것'구문에 대한 유형별 조사 검토한다. 특히 '것' 포함된 34,254 문장 중 ...

본 연구의 연구대상은 지금까지 연구된 ‘것’에 대한 문헌을 조사 연구하고 여기서 논의되고 있는 형태, 통사, 의미, 화용적 속성에 따라 ‘것’ 구문을 분류한다. 또한 세종 말뭉치 분석을 통해서 '것'구문에 대한 유형별 조사 검토한다. 특히 '것' 포함된 34,254 문장 중 1만 문장과 ‘것’에 관한 문헌들에서 논의하고 있는 ‘것’ 관련 문장들이 가지는 ‘것’이 어떠한 통사, 의미, 화용적 속성을 가지고 사용되고 있는지 조사, 연구한다. 본 연구에서 경험적 조사를 통해 얻은 연구 결과를 형식화하기 사용할 기본적 이론은 전산학적 응용을 목표로 개발된 제약기반이론인 HPSG이다. 문법 정보간의 제약을 중요시 하는 HPSG는 이미 전산언어학적 응용을 위한 영어, 일본어, 독일어, 불어 등 상당 수 언어의 문법구축에 사용되고 있고 그 효율성은 여러 연구를 통해서 검증되었다. HPSG는 수학적 명시성과 전산언어학적 응용성을 문법 기술의 중요한 척도로 삼고 있다. 즉, 추상성이나 문법적 조작보다는 기술적 정확성을 일차 목표로 하고 있기 때문에 본 연구 과제에 가장 적합한 언어이론이다. 세종 말뭉치에서 분석, 분류된 ‘것’ 구문은 단순한 구문에 대한 연구를 시작으로, 보다 복잡 난해한 ‘것’ 구문에 대한 연구로 진행한다. 특히 본 연구가 목표로 삼고 있는 주요 ‘것’구문은 통사, 의미, 화용적으로 가장 난해한 ‘것’ 분열문(cleft), ‘것’ 관계절과 유사구문, 그리고 ‘것’ 명사보문 구조 들이다. 기존 문헌 및 세종 말뭉치에서 가장 많이 찾아 볼 수 있는 유형들이다. 본 연구는 이들 '것' 구문들이 가지고 있는 통사, 의미, 화용적 정보에 대한 심층있는 연구를 세종 말뭉치에 사용된 실제 언어자료들을 통해서 규명한다. 구축된 ‘것’ 구문에 대한 형식 문법을 구현할 기본적인 시스템은 제약기반 언어 체계의 문법적 구현을 위한 응용 환경을 가지고 있는 LKB (Linguistic Knowledge Building) 시스템이다. 이 시스템은 미국 스탠포드대학 CSLI 연구팀들이 개발하여 ERG(English Resource Grammar) 구현을 위해 적용되고 있다. 효율적 구문분석 및 생성, 그리고 평가 체계도 가지고 있고, 개발에 더욱 박차를 가하고 있다. 본 연구는 이러한 시스템에 개발한 '것' 분석을 구현하여 분석의 타당성을 검증한다.

영문
The expression kes, one of the most commonly used words in the Korean language, has various usages. The project looks into syntactic, semantic, and pragmatic properties of this expression. In particular, we first identify the types of ‘kes’ with a thr ...

The expression kes, one of the most commonly used words in the Korean language, has various usages. The project looks into syntactic, semantic, and pragmatic properties of this expression. In particular, we first identify the types of ‘kes’ with a through corpus investigation. We also focus on its uses in relative clauses, cleft constructions, exclamatives, among others.
For example, in clefts, the expression ‘kes’ is also used to express English-like cleft constructions. Korean employs at least three different types of cleft constructions: predicational, identificational, and eventual. We try to provide a constraint-based analysis of these three types of Korean cleft constructions and implement the analysis in the LKB system to check the feasibility of the analysis. Based on the simple assumption that 'kes' is treated as a nominal element as a morphosyntactic category but refers to either an individual or an event. The pronoun 'kes' in the cleft clause refers to an individual entity as in the relative clause. Given these basic assumptions, we have built a constraint-based grammar couched upon HPSG. The grammar we have built within a typed-feature structure system and well-dened constraints, eventually aiming at working with real-world data, has been implemented in the LKB (Linguistic Knowledge Building) system. We have shown that the grammar can parse the appropriate syntactic and semantic aspects of the three types of cleft constructions. Even though the test data set we used in checking the feasibility of the system is limited, the test results shows us that the grammar, built upon the typed feature structure system, is efficient enough to build semantic representations for the complex cleft constructions.

연구결과보고서

초록
본 연구는 여러 말뭉치 조사 등에서 아주 높은 빈도수를 보여주는 ‘것’구문에 대한 경험적 연구를 바탕으로 이들 구문에 나타나는 통사, 의미, 화용 등 문법 정보간의 상호작용을 반영하는 이론을 개발하는데 1차적인 목적을 두고 있다. 경험적 연구 대상의 목표 문장은 ...

본 연구는 여러 말뭉치 조사 등에서 아주 높은 빈도수를 보여주는 ‘것’구문에 대한 경험적 연구를 바탕으로 이들 구문에 나타나는 통사, 의미, 화용 등 문법 정보간의 상호작용을 반영하는 이론을 개발하는데 1차적인 목적을 두고 있다. 경험적 연구 대상의 목표 문장은 세종말뭉치에서 찾을 수 있는 약 3만의 ‘것’을 포함한 문장 중 임의로 추출한 1만 문장이다. 본 연구의 2차적 목표는 이러한 경험적 분석을 토대로 개발한 수학적으로 엄밀한 형식문법이론을 전산언어학적으로 구현하여 기계번역 등과 같이 그 응용 가능성을 찾아보는데 있다. 본 연구의 연구대상은 지금까지 연구된 ‘것’에 대한 문헌을 조사 연구하고 여기서 논의되고 있는 형태, 통사, 의미, 화용적 속성에 따라 ‘것’ 구문을 분류한다. 또한 세종 말뭉치 분석을 통해서 '것'구문에 대한 유형별 조사 검토한다. 특히 '것' 포함된 34,254 문장 중 1만 문장과 ‘것’에 관한 문헌들에서 논의하고 있는 ‘것’ 관련 문장들이 가지는 ‘것’이 어떠한 통사, 의미, 화용적 속성을 가지고 사용되고 있는지 조사, 연구한다. 본 연구에서 경험적 조사를 통해 얻은 연구 결과를 형식화 하기 사용할 기본적 이론은 전산학적 응용을 목표로 개발된 제약기반이론인 HPSG이다. 문법 정보간의 제약을 중요시 하는 HPSG는 이미 전산언어학적 응용을 위한 영어, 일본어, 독일어, 불어 등 상당 수 언어의 문법구축에 사용되고 있고 그 효율성은 여러 연구를 통해서 검증되었다. HPSG는 수학적 명시성과 전산언어학적 응용성을 문법 기술의 중요한 척도로 삼고 있다. 즉, 추상성이나 문법적 조작보다는 기술적 정확성을 일차 목표로 하고 있기 때문에 본 연구 과제에 가장 적합한 언어이론이다. 세종 말뭉치에서 분석, 분류된 ‘것’ 구문은 단순한 구문에 대한 연구를 시작으로, 보다 복잡 난해한 ‘것’ 구문에 대한 연구로 진행한다. 특히 본 연구가 목표로 삼고 있는 주요 ‘것’구문은 통사, 의미, 화용적으로 가장 난해한 ‘것’ 분열문(cleft), ‘것’ 관계절과 유사구문, 그리고 ‘것’ 명사보문 구조 들이다. 기존 문헌 및 세종 말뭉치에서 가장 많이 찾아 볼 수 있는 유형들이다. 본 연구는 이들 '것' 구문들이 가지고 있는 통사, 의미, 화용적 정보에 대한 심층있는 연구를 세종 말뭉치에 사용된 실제 언어자료들을 통해서 규명한다. 구축된 ‘것’ 구문에 대한 형식 문법을 구현할 기본적인 시스템은 제약기반 언어 체계의 문법적 구현을 위한 응용 환경을 가지고 있는 LKB (Linguistic Knowledge Building) 시스템이다. 이 시스템은 미국 스탠포드대학 CSLI 연구팀들이 개발하여 ERG(English Resource Grammar) 구현을 위해 적용되고 있다. 효율적 구문분석 및 생성, 그리고 평가 체계도 가지고 있고, 개발에 더욱 박차를 가하고 있다. 본 연구는 이러한 시스템에 개발한 '것' 분석을 구현하여 분석의 타당성을 검증한다.

연구결과 및 활용방안
󰋼 경험적 측면: 세종말뭉치를 자료 조사의 근간으로 삼고 있는 본 연구는 ‘것’ 구문이 실제 어떠한 용도로 사용되고 있는지를 구체적으로 밝혀 주는 연구였다고 자평할 수 있다. 이는 직관에 의존하는 이론적 연구의 문제점을 보충해 주면서 올바른 언어 기술 방 ...

󰋼 경험적 측면: 세종말뭉치를 자료 조사의 근간으로 삼고 있는 본 연구는 ‘것’ 구문이 실제 어떠한 용도로 사용되고 있는지를 구체적으로 밝혀 주는 연구였다고 자평할 수 있다. 이는 직관에 의존하는 이론적 연구의 문제점을 보충해 주면서 올바른 언어 기술 방법론을 제시해 주는 데 일익을 담당할 것으로 기대한다.

󰋼 이론적, 전산학적 측면: 본 연구는 무엇보다도 추상적인 이론 중심의 한국어 문법이 아닌, 경험적 자료를 중시하고 수학적 엄밀성을 지닌 ‘것’구문에 대한 분석을 제시할 것이다. 구축된 모든 문법들이 전산학적으로 LKB 시스템 내에서 검증되기 때문에 수학적 엄밀성을 지닌 한국어문법 구축의 방향성을 제시하였다. 이는 한국어문법에 대한 다양한 시각을 제공함으로써 전산언어학분야 뿐만 아니라 한국어에 대한 언어학적 발전의 계기가 될 것으로 기대한다. 지금까지의 한국어문법 연구는 전산학적 응용 및 구현을 하기 어려운 변형문법 관점에서 이루어져 왔다. 이에 반해 유형화된 자질구조에 기반하며 세종말뭉치와 같은 실제 자료에 기반한 한국어구구조문법은 전산학적 구현을 함께 병행함으로써 한국어정보처리 연구에 새로운 계기를 마련하였다고 할 수 있다.

󰋼 구문, 의미 분석기 측면: 본 연구는 ‘것’ 구문을 중심으로 전산학적 응용가능한 한국어문법을 바탕으로 구문분석기 및 의미분석기를 동시에 개발하는데 주 목적을 두고 있다. 지금까지의 대부분 구문분석은 의미분석보다는 구문분석에 역점을 둔 결과 실제 응용에 어려움을 직면하였다. 본 연구 과제의 성공적인 수행은 이러한 문제점을 해결하는 방법을 제시하였다. 뿐만 아니라 본 연구 결과는 생성기 구축의 가능성도 탐구하였다. 언어 사용은 기본적으로 언어 처리 혹은 이해와 동시에 생성도 반드시 수반한다는 점에서 이러한 생성기 구축 노력은 전산언어학 연구에 중요한 시도이며, 궁극적으로 언어 처리 문법이 언어 생성까지 가능한 시스템의 방향성을 제시하였다.

󰋼 인력양성 측면: 본 연구에 참여하는 학사, 석사, 박사급 연구보조원 및 전임 연구원들은 세종 말뭉치 자료 분석에 직접 참여함으로써 자료 분석 능력을 배양할 뿐만 아니라, 한국어정보처리의 중요성도 인식하는 전문인으로 성장하는데 기여하였다. 특히 학제간 연구의 중요성을 인식하는 전문 인력이 많지 않다는 점에서, 이러한 전문 인력 양성은 한국어정보처리를 위해서 반드시 이루어져야할 부분이다.

󰋼 교육적 측면: 언어 이론 구축의 목적이 자연언어 현상의 규명에 있다면, 이를 구현하는 측면은 구축된 이론의 정확성을 검증하며, 이러한 이론이 언어 전반에 걸쳐 어떻게 상호 작용을 하는지 확인하기 위한 것이다. 이러한 정확성에 입각한 언어 이론 구축은 언어의 규칙성 및 전산학적 응용의 중요성을 교육할 수 있는 밑거름이 될 수 있을 것이다.

󰋼 학제간 연구 및 국제협력 연구를 통한 한국어 정보처리의 국제화: 본 연구는 학제간 연구인 동시에 국제 협력적 연구로서 비록 짧은 연구이지만, 연구 결과를 전산언어학 관련 국제학술대회에 발표하였고, 국내외 학술지에 출판하였다. 이러한 성과는 한국어 정보처리에 관한 제반 연구들은 국내외 학자들과 활발한 학문적 교류를 가능하게 하였고, 이는 곧 한국어정보처리의 중요성을 국제언어학계 및 전산학계에 인식시킬 수 있을 것이다.

󰋼 한국어처리의 열린 연구화 및 국제화: 또한 기본적인 한국어 전산학 처리 결과를 연구결과를 온라인 상 http://krg.khu.ac.kr에 탑재하여 관련 연구자들에게 무료로 제공, 함께하는 학문의 기회를 제공하였다. 또한 언어지식구축(LKB) 시스템 내에서 이루어지는 이러한 연구 결과는 장기적으로는 본 체계 내에서 이미 활발하게 개발 연구 중인 독일어, 불어, 일본어, 그리스어, 스페인어, 노르웨이어 등의 정보처리기와 연결, 다국적 언어처리기에 활용될 수 있도록 하는 것이 목적이다. 현재 본 연구팀은 영국의 Cambridge 대학, 일본 NTT, 독일의 Saarland 대학, Stanford 대학, 도쿄대학, University of Washington 대학 등이 참여하고 있는 Deep Linguistic Processing with HPSG (Delph-in) 컨소시엄에 참여하고 있다 (http://www.delph-in.net). 이러한 컨소시엄에 참가는 한국어 정보화 처리의 국제화를 앞당기는데 기여한 것으로 자평한다.

색인어
말뭉치, 것, 분열구문, 관계절, HPSG, LKB, 세종말뭉치, KRG (Korean Resource Grammar)

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 통사론(언어학)
2순위 : 인문학 > 언어학 > 전산언어학

연구성과물 목록