가. 연구목적 본 연구는 중국어 비교 범주에 출현하는 의미역에 대한 분포적 특징 (통사·의미적 선택 제약 및 출현 패턴)과 개별 구문 유형 ('有' 비교문, '比' 비교문, '像' 비교문 등)의 구조적 특징을 밝히고 이를 바탕으로 중국어 비교 정보 자동 추출 시스템을 구현하 ...
가. 연구목적 본 연구는 중국어 비교 범주에 출현하는 의미역에 대한 분포적 특징 (통사·의미적 선택 제약 및 출현 패턴)과 개별 구문 유형 ('有' 비교문, '比' 비교문, '像' 비교문 등)의 구조적 특징을 밝히고 이를 바탕으로 중국어 비교 정보 자동 추출 시스템을 구현하는 것을 목표로 한다. 나. 연구내용 이를 위해 먼저 8종 의미역 분류 체계 (비교환경, 비교주체, 비교객체, 비교표지, 비교항목, 비교속성, 비교결과, 비교차이)를 세우고, 신문, 교재, 상품평 등의 문어, 구어 텍스트를 대상으로 의미역 및 통사 정보를 부착한 중국어 비교문 말뭉치를 구축한다. 동시에 기존 연구에서 경시했던 비교환경, 비교항목, 비교차이 등의 요소를 존재론적, 인지과학적, 형식의미론적 관점에서 재조명하여, 상기 요소들의 세분화가 비교 구문 분석에 유용함을 입증한다. 다음으로, 8종 의미역 분석틀에 따라 비교 범주의 의미역 출현 양상에 대해 전면적이고 체계적인 분석을 진행한다. 구축된 말뭉치를 대상으로 각종 비교 문형의 통사·의미적 특징 및 공통점과 차이점을 분석하여 중국어 비교 구문의 이론 연구 및 정보 추출 시스템 구축을 위한 기초 지식과 정량적 데이터를 축적한다. 이어서 비교 구문의 자동 의미요소 추출을 실현하기 위해, 선형 구문 분석 (chunking) 과 심층 구문 분석 (parsing) 의 두가지 층위에서 구문 분석을 진행한다. 선형 구문 분석의 층위에서는 말뭉치에 출현하는 예시를 패턴 추출 알고리즘(Apriori, CM-SPAM)으로 분석, 8종 의미역의 출현 패턴과 배열·생략 규칙을 도출해 낸다. 이 과정에서 얻어진 비교표지 기준의 이항 분포, 비교속성-비교결과 성분의 논리적 주술 관계 및 의미적 속성-속성값 관계, 수의적 성분의 생략 조건 등의 선형 특징을 활용하여 비교문 의미역 자동 인식 모형을 구축한다. 그 외에 선형 구문 분석 층위에서 분석 불가능한 구(phrase) 구조상의 통사, 의미적 특징들은 심층 구문 분석의 층위에서 상술한다. 문법 범주와 8종 의미역과의 대응(mapping)관계, 대응 시의 통사·의미적 선택 제약 등의 구조적 특징(feature)들을 자질구조 통합 방식(feature unification-based)의 구 구조 문법 체계(HPSG & TAG formalism)를 따라 형식화하고, 이를 각종 알고리즘에 적용하여 비교문 의미역 자동 인식 프로그램을 구현한다. 다. 연구방법 본 연구는 연구자의 직관에 따라 생성한 예문을 중심으로 문장의 적형성 여부를 판별하는 정적인 통사 연구 방식에서 벗어나, 언중의 생생한 표현을 담고 있는 말뭉치를 대상으로 정량적인 분석을 진행함으로써, 문법의 규칙성뿐 아니라 경향성을 반영하는 실증적 연구 방법론을 제시한다. 8종 비교 의미역 분류의 정교한 분석 틀에 기초하여 통사와 의미의 다중 층위에서 의미역의 논항 관계를 세밀하게 분석하고, 그 결과를 규칙 및 통계(기계 학습) 기반의 다양한 알고리즘 (배열 규칙 기반의 선형 분석, 변환 기반의 오류 최소화 알고리즘(TBL), 순환인공신경망(RNN) 기반의 딥러닝 알고리즘, 구 구조 문법(PSR)과 PCFG에 기반한 구문 분석 등)에 적용하여 비교문 의미역 자동 인식 프로그램을 구현한다. 이처럼 이론·응용 연구 간의 피드백을 통해, 본 연구는 중국어 비교문 연구에 견실한 이론적 토대와 풍부한 경험적 데이터를 제공하고, 동시에 언어학 지식 기반의 정보 추출 시스템을 실현함으로써, 이론 언어학과 언어 공학 간의 연구 교류 활성화에 기여한다.