연구과제 상세정보

https://www.krm.or.kr/krmts/link.html?dbGubun=SD&m201_id=10003393&res=y

한국어 구문 분석을 위한 문법요소들의 관계망 구축

연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.

사업명	선도연구자지원 [지원년도 신청 요강 보기 ]
연구과제번호	2002-041-A00180
선정년도	2002 년
연구기간	1 년 (2002년 12월 01일 ~ 2003년 12월 01일)
연구책임자	목정수
연구수행기관	사단법인 한국언어학회
과제진행현황	종료

과제신청시 연구개요

연구목표
정보화 시대에서 국가 경쟁력은 정보 전달 매체 특히 언어를 얼마나 효율적이고 정확하게 처리할 수 있느냐에 달려 있다고 볼 수 있다. 그만큼 자연언어처리에 대한 중요성이 더해 가고 있다. 문제는 영어를 중심으로 한 언어처리 분야에서의 발전된 기술과 자료 구축 방 ...

정보화 시대에서 국가 경쟁력은 정보 전달 매체 특히 언어를 얼마나 효율적이고 정확하게 처리할 수 있느냐에 달려 있다고 볼 수 있다. 그만큼 자연언어처리에 대한 중요성이 더해 가고 있다. 문제는 영어를 중심으로 한 언어처리 분야에서의 발전된 기술과 자료 구축 방법론에 따라, 많은 인적 물적 자원이 투입되어 한국어 처리를 위한 다양한 시스템 개발―형태소분석기, 구문분석기, 자동번역기 등등―이 이루어졌지만, 그 결과는 만족할 만한 수준에 이르지 못하고 있다는 점이다. 본 연구는 특히, 한국어 구문분석기의 개발이 난관에 봉착하여 진전이 더딘 상황을 반성해 보고, 한국어 구문분석기의 성능을 향상시키기 위해서는 새로운 문장 파싱 알고리즘 개발이 필요하다는 것을 보이고, 그를 위해 한국어 문장을 어떻게 분석해야 할 것인가를 규명하는 데 목표를 둔다. 이를 위해서 실제 코퍼스상에서 사용되고 있는 한국어 문장―문어체나 구어체를 다 포함하여―을 정확히 분석하기 위해서는 동사를 중심으로 한 의존관계나 논항구조에 입각하여 파악하는 방식을 뛰어넘어서, 문법요소인 어미와 조사가 가지고 있는 정보를 최대한 활용해야 문장 분석을 위한 필요충분조건을 만족시킬 수 있다는 점을 이론적인 면에서 구명하고, 실천적으로 문형을 틀 짓고 있는 문법요소들의 결합 양상, 상관 관계를 망(network)으로 연결하는 데이터베이스를 구축해 보고자 한다.

기대효과
일반언어학적 관점에서 보면, 한국어 문어체와 구어체의 문법적 특징을 포착하여 체계화하고 이를 구체적인 데이터베이스로 구현함으로써 한국어 문법에 대한 일정한 관점을 수립할 수 있고, 대조언어학적 차원에서 다른 외국어의 구조와 체계적인 비교 연구를 가능하게 ...

일반언어학적 관점에서 보면, 한국어 문어체와 구어체의 문법적 특징을 포착하여 체계화하고 이를 구체적인 데이터베이스로 구현함으로써 한국어 문법에 대한 일정한 관점을 수립할 수 있고, 대조언어학적 차원에서 다른 외국어의 구조와 체계적인 비교 연구를 가능하게 해 준다. 자연언어처리의 관점에서는 자동번역의 필수 요소인 구문분석기 개발에 적극 활용될 수 있다. 마지막으로 외국어로서의 한국어 교육을 위한 자료 개발에도 기초자료로 쓰일 수 있다. 한국어의 기본 문형의 유한한 목록을 작성하고 이들이 확장되는 방식을 체계적으로 분석한 결과물을 이용하면, 한국어 교육 커리큘럼 작성시, 한국어 문법을 어떻게 설명하고 가르칠 것인가에 대한 힌트를 얻을 수 있고, 동사구문 사전을 보완하는 진정한 의미의 한국어 문형사전을 만들 수 있을 것이다.

연구요약
기존 한국어 자연언어처리를 위해 개발한 자동 태깅 시스템, 구문분석기, 기계번역기에서의 작업은 대부분 동사의 (논리)의미 정보인 논항구조와 통사 정보인 하위범주화틀의 상관관계를 기반으로 하는 데이터베이스 구축과 관련된 것이었다. 그러나 논항구조 정보나 인접 ...

기존 한국어 자연언어처리를 위해 개발한 자동 태깅 시스템, 구문분석기, 기계번역기에서의 작업은 대부분 동사의 (논리)의미 정보인 논항구조와 통사 정보인 하위범주화틀의 상관관계를 기반으로 하는 데이터베이스 구축과 관련된 것이었다. 그러나 논항구조 정보나 인접 어휘 연쇄 정보(=연어 정보)의 구축만으로는 한국어 문장 분석을 위한 효과적인 시스템을 개발하는 데 한계가 있다는 것이 경험적으로 알려져 있다. 본 연구는 이를 보완하기 위하여 한국어의 특징적인 문장 구조를 반영할 수 있는 문법정보 데이터베이스를 구축하고자 하는 것이다. 그 동안 조사와 어미의 목록을 작성하고 조사의 결합 체계와 어미의 결합 체계를 분석하는 형태론적 연구를 통하여 구축된 정보를 바탕으로, 한발짝 더 나아가서 각각의 문법요소들이 문장을 구성하는 데 있어서 어떻게 상호작용을 하는지에 관한 통사적 정보를 구축하려 한다. 이를 위해 조사, 어미에 대한 새로운 분류 작업을 실제 코퍼스를 기반으로 수행하고자 한다.
인접 어휘 연쇄, 연어 중심, 또는 논항구조 중심의 데이터베이스는 한국어 문장을 분석하고 그 유형을 분류하는 데 한계를 갖고 있다. 영어의 경우는 이러한 정보들이 매우 유용하게 사용되고 있지만, 한국어의 경우에는 "만약 ... -으면", "왜냐하면 ... -기 때문이다", {아마(도) ... -을 것이다"에서 볼 수 있듯이, 일치 요소가 멀리 이접되어 있기 때문이다. 따라서 본 연구는 이러한 한국어의 특징적인 문장 구조를 반영하는 "기어이 -고 말았다", "-도 -는데 -이나 -자"와 같은 문장구조의 세트를 데이터베이스화하는 데 중점을 둔다. 기존의 논항구조나 의미역 중심의 정보로는 다음과 같은 비교적 단순한 두 문장 ―"동생은 아파서 여행 못 갔어"와 "동생이 아파서 여행 못 갔어"―의 인칭(person)의 차이를 보여주기 힘든 반면에, 본 연구에서 구축하려는 "-은 -아서 -었어", "-가 -어서 -었어"와 같은 문형 데이터베이스는 그러한 문장의 해석 차이가 어디서 유래하는가를 명시적으로 보여주는 장점을 갖는다. 본 연구에서 구축하려는 문형 데이터베이스와 기존 논항구조나 의미역 정보 데이터베이스와의 차이와 상호 보완점을 명시적으로 보기 위해서는 다음을 비교해 보면 된다. "부분은 중심을 뜻한다.

<논항-의미역 정보 DB>
(사람)-이 (장소)-에 "가-"
(사람)-이 (글)-을 "읽-"
(사람)-이 (사람)-에게 (물건)-을 "주-"
...

<문형 DB>
"도대체" (얘)-"는" (어디)-"ㄹ" (가)-"ㄴ거야?" : 자문의 성격
(너희)-:가" (재즈)-"를" (알)-"느냐?" : 수사의문문
(테레비젼)-좀 (보)-게 좀 (조용)히 해라. : {좀}의 새인식
...

한글키워드
문형,의미역구조,논항구조,문법요소,구문분석,한국어 문장,조사,결합제약,문법망,어미

결과보고시 연구요약문

국문
본 연구에서 핵심으로 삼은 것은 조사-어미의 통사적 제약현상, 동사-어미-인칭의 제약현상에 대한 분석이다. 이를 위하여 인칭분석말뭉치를 구축하였으며 이 자료에 기반하여 조사-어미, 동사-어미-인칭 제약현상을 분석하였다. 이러한 분석에서 정리된 자료는 한국어 구 ...

본 연구에서 핵심으로 삼은 것은 조사-어미의 통사적 제약현상, 동사-어미-인칭의 제약현상에 대한 분석이다. 이를 위하여 인칭분석말뭉치를 구축하였으며 이 자료에 기반하여 조사-어미, 동사-어미-인칭 제약현상을 분석하였다. 이러한 분석에서 정리된 자료는 한국어 구문 분석을 위한 문법요소들의 관계망을 이루는 기본적인 데이터가 되었다.

(1) 조사와 어미의 통사적 긴밀성을 {-이나}를 구체적 예로 들어 논의하였다. 한국어 문법 틀을 세우는 이론적인 차원에서뿐만 아니라, 실제적으로 한외 기계 번역을 비롯한 자연언어 처리 부문에서도 {이나}, {이라도}가 결합된 어절의 형태 분석과 자동 태깅의 문제가 발생하고 있다. 더불어 이 형태의 의미 처리와 관련된 문제로서, {이나, 이라도}에 대응되는 형태가 존재하지 않는 외국어―영어, 불어, 일본어 등―에서 어떻게 해결되어야 하는가 하는 실천적 해결책도 모색해 보았다. 또한 문제의 {이나}가 분포적으로 볼 때, 한정조사 계열에 편입되는 요소로 파악할 수 있다는 것을 형식적 기준을 통해 제시하고, {이나}가 한정하는 명사구가 서술어의 서법어미와 어떻게 관련되는지를 구체적으로 따져 봄으로써, 한정조사는 논항과 서술어의 관계를 이어 주는 기능이나 선행 XP를 한정해 주는 기능을 뛰어넘어, 서술어의 어미(=서법어미)나 양태 관련 표현 형식과 모종의 관계를 맺고 있다는 점을 드러내고자 하였다. 이를 위해 한정조사와 어미가 어떻게 문법 망(grammatical network)을 구성하고 있는지를 보였다.

(2) 어미와 인칭의 관련성을 논의하였다. 한국어 문법 논의에서 인칭의 문제는 주요한 주제로 언급되지 않았다. 한국어는 동사 어미에 주어 (대)명사와 일치하는 표지가 나타나지 않는다는 것, 즉, 한국어 문법에서 ‘어미’로 불리는 요소들은 주어/행위자와 관계가 없다는 것이 일반적인 견해이다.

그러나, 한국어 ‘어미’가 인칭과 전혀 무관한 것은 아니다. 국문법 연구에서도 주체존대의 어미 {-(으)시-}가 주어/행위자와 일치한다고 논의되어 왔으며, 유형론적으로 한국어에 특히 발달한 것으로 논의되는 접속어미에 대해서도 동일주어제약과 같은 현상이 논의되었고, 문장종결어미에 대해서도 주어/행위자 특정 인칭으로 제약되는 현상이 역시 다루어지고 있다. 그러나, 이러한 현상의 관찰은 한국어 문법에서 인칭 문제 해결을 위한 체계화로 발전되지는 않았다.

본 연구는 한국어 문법에서 인칭 구조를 체계화하려는 박형달(1996), 박형달(2001), 목정수(2003)과 같은 일련의 논의들에 이론적 기반을 두었다. 이들을 구체적으로 지지할 수 있는 근거를 마련하고, 실제적인 측면에서 체계화할 수 있는 틀을 마련하기 위하여 유현조․염신현․목정수(2003)에서 인칭 분석 자료 구축을 위한 작업 방향을 제안하였다. 여기서 얻어진 자료를 바탕으로 하여 한국어에서 동사범주(어휘요소에 담긴 인칭성)와 어미범주(문법요소에 담긴 인칭성)의 결합을 통해 ‘주어(subject)’, ‘행위주(agent)’, ‘동작주(actor)’의 인칭이 어떻게 드러나는지, 그리고 주어가 명시적으로 표현되지 않는 경우인 소위 ‘영형 대명사(zero pronoun)’ 문제가 어떻게 해소/해결(resolution)될 수 있는지에 관한 논의를 펴고, 이를 위한 말뭉치 언어학적 접근(corpus linguistics)의 시초를 마련하고자 하였다.

영문
(1) The particle `-(i)na' should be classified as a member of the class `delimiter'(=determiner=article), together with the particles `-ga, -leul, -do, -neun', which have been divergently described as case markers, topic markers, auxiliary particles, ...

(1) The particle `-(i)na' should be classified as a member of the class `delimiter'(=determiner=article), together with the particles `-ga, -leul, -do, -neun', which have been divergently described as case markers, topic markers, auxiliary particles, etc. The delimiting particles, including `-(i)na' are correlated with the whole syntax of sentences, or modal endings(imperative, exhortative, exlamative etc.) and modal auxiliary verbs. The `raison d'etre' of the particle `-(i)na' should be found in the `discontinuous signifies' which comprise the grammatical network. This paper finally requires the paradigm-shift of viewing the delimiting particles and the sentence in Korean.

(2) There are some possibilities of discerning the person-type of subject, agent, experiencer by using the information extracted/retrieved from verb-ending complex, not from (pro)noun phrase. And empirical/statistical data in a corpus analysis are given to prove our hypothesis. Through this, it is revealed that we can resolve the person (of `zero pronoun') on the basis of grammatical mechanism, rejecting the opinion that there is no person in Korean or that the person in Korean is expressed/activated at the pragmatic level. It is generally accepted that the subject can be easily omitted in Korean, in particular in spoken Korean and that the information with regard to person can be gained from extralinguistic knowledge, or context, utterance situation. But our research based on the authentic/real Korean data shows that the person is distinguishable at the morpho-syntactic level and that the problem of the so-called `zero pronoun' can be resolved through the grammatical mechanism. In sum, we suggest that a (pro)noun-centric or lexical-based approach to the analysis of person be replaced by a ending-centric or grammatical-based approach.

연구결과보고서

초록
본 연구에서 핵심으로 삼은 것은 조사-어미의 통사적 제약현상, 동사-어미-인칭의 제약현상에 대한 분석이다. 이를 위하여 ‘인칭분석말뭉치’를 구축하였으며 이 자료에 기반하여 조사-어미, 동사-어미-인칭 제약현상을 분석하였다. 이러한 분석을 통해 정리된 자료는 한국 ...

본 연구에서 핵심으로 삼은 것은 조사-어미의 통사적 제약현상, 동사-어미-인칭의 제약현상에 대한 분석이다. 이를 위하여 ‘인칭분석말뭉치’를 구축하였으며 이 자료에 기반하여 조사-어미, 동사-어미-인칭 제약현상을 분석하였다. 이러한 분석을 통해 정리된 자료는 한국어 구문 분석을 위한 문법요소들의 관계망을 이루는 기본적인 데이터가 되었다.
첫째로, 조사와 어미의 통사적 긴밀성을 한정사를 대상으로, 특히 {-이나}를 구체적 예로 삼아 논의하였다. 한정사가 결합한 명사구가 서술어의 서법어미와 어떻게 관련되는지를 구체적으로 따져 봄으로써, 한정조사는 논항과 서술어의 관계를 이어 주는 기능이나 선행 XP를 한정해 주는 기능을 뛰어넘어, 서술어의 어미(=서법어미)나 양태 관련 표현 형식과 모종의 관계를 맺고 있다는 점을 드러내고자 하였다. 이를 위해 한정조사와 어미가 어떻게 문법 망(grammatical network)을 구성하고 있는지를 보였다.
둘째로, 어미와 인칭의 관련성을 논의하였다. 한국어는 동사 어미에 주어 (대)명사와 일치하는 표지가 나타나지 않는다는 것, 즉, 한국어 문법에서 ‘어미’로 불리는 요소들은 주어/행위자와 관계가 없다는 것이 일반적인 견해이나, 한국어 ‘어미’가 인칭과 전혀 무관한 것은 아니다. 한국어 문법에서 인칭제약에 관한 현상은 충분히 관찰되기는 하였으나, 그것이 통합적으로 분석되지는 않았다. 본 연구는 한국어 문법에서 인칭 구조를 체계화하려는 이론적 기반을 제시하였으며, 본 연구 성과 중의 하나인 인칭분석말뭉치 틀에 따라 자료를 분석하였다. 여기서 얻어진 자료를 바탕으로 하여 한국어에서 동사범주(어휘요소에 담긴 인칭성)와 어미범주(문법요소에 담긴 인칭성)의 결합을 통해 ‘주어(subject)’, ‘행위주(agent)’, ‘동작주(actor)’의 인칭이 어떻게 드러나는지, 그리고 주어가 명시적으로 표현되지 않는 경우인 소위 ‘영형 대명사(zero pronoun)’ 문제가 어떻게 해소/해결(resolution)될 수 있는지에 관한 논의를 펴고, 이를 위한 말뭉치 언어학적 접근(corpus linguistics)의 시초를 마련하고자 하였다.

연구결과 및 활용방안
연구결과로 얻어진 것은 모두 세가지로 요약할 수 있다. 첫째, 한국어 구문 분석에 있어서 문법요소들의 공기/제약 문제를 다루기 위한 이론적 틀의 제안한 것, 둘째, 이를 위한 자료 구축의 틀을 제시하고 그에 따라 실제로 분석말뭉치를 구축한 것, 셋째, 이렇게 얻어진 ...

연구결과로 얻어진 것은 모두 세가지로 요약할 수 있다. 첫째, 한국어 구문 분석에 있어서 문법요소들의 공기/제약 문제를 다루기 위한 이론적 틀의 제안한 것, 둘째, 이를 위한 자료 구축의 틀을 제시하고 그에 따라 실제로 분석말뭉치를 구축한 것, 셋째, 이렇게 얻어진 인칭분석말뭉치에 기반하여 개별적인 주제의 분석을 수행하고 논문으로 발표한 것이 그것이다.
본 연구는 일차적으로 한국어 통사 현상에 대한 이론적 연구의 성격이 강한 것이었다. 충분한 자료를 구축하는 것은 그러한 이론적 분석을 뒷받침하기 위한 수행 과제 중의 하나였다. 자료 분석 과정에 상당한 시간과 노력을 할애하였지만 어디까지나 연구의 핵심은 한국어 분석틀의 일반 언어이론 차원에서의 조망에 있었다. 그리고 그러한 이론적 분석은 구체적 자료를 근거로 하여 목정수(2003ㄴ), 목정수·유현조(2003ㄱ)으로 발표될 수 있었다. 이러한 분석틀은 한국어 통사현상의 문제에 있어서 하나의 새로운 해결책을 제시할 수 있었으며 이전에는 중요하게 논의되지 않았던 통사현상을 중심으로 끌어들이는 역할을 할 수 있었다.
활용방안의 하나로 한국어 자동 처리에 기여할 수 있을 것으로 보인다. 그 하나로 일본어, 한국어 등 인칭이 형태적으로 드러나지 않으면서 주어가 쉽게 생략되는 언어에서 영형대명사의 인칭 판정 문제는 기계번역 또는 대화형 전문가 시스템 등에서 중요한 논의거리였다. 본 연구에서 논의된 조사, 어미, 보조동사 등에 드러나는 인칭 정보는 영형대명사 해결에 활용될 수 있을 것으로 보인다.
또, 한국어 문법 사전 제작에 기여할 수 있을 것이다. 물론, 그 문법 사전이 어떠한 형식을 가질 것인가는 또 다른 연구 주제일 것이다. 그러나, 본 연구들 통해 문법 요소들이 개별적으로 기능하는 것이 아니라 통사적으로 긴밀하게 결합되어 하나의 단위처럼 기능하는 것임을 더욱 구체적으로 밝혀진 바, 이러한 정보를 적절하게 제공할 수 있는 문법 사전이 필요할 것이다. 이는 문법형태소의 개별적인 나열 방식이 아니라 ‘문형 사전’으로 볼 수 있는 방식이 될 것으로 예상된다. 또한, 이러한 정보는 그 자체로서 외국어로서의 한국어 교육을 위한 좋은 자료가 될 것이며, 한국어-외국어 문형 사전과 같은 형태로 발전시킬 수도 있을 것이다.

색인어
조사, 한정사, 어미, 보조동사, 조동사, 동사범주, 어미범주, 인칭, 주어 인칭, 영형대명사, 인칭분석말뭉치; determiner, modal ending, modal auxiliary verb, category of verbs, category of endings, person of subject, zero pronoun, person-tagged corpus

이 연구과제의 신청시 심사신청분야(최대 3순위까지 신청 가능)
1순위 : 인문학 > 언어학 > 언어이론
2순위 : 인문학 > 언어학 > 코퍼스
3순위 : 인문학 > 언어학 > 통사론(언어학)

연구성과물 목록